全文共4025字,预计学习时长8分钟
在这篇信息文章中,我们将重点关注bars:它们有什么问题?如何正确地处理以用于机器学习模型?在重新认识bars之后,你会发现几种从bars构建输入和输出的新方式方法。我们将会以统计和试验的方式来进行比较。
K线图(蜡烛图)的问题是什么?
我们习惯用所谓的“蜡烛图”来表示特定时间段(几分钟到几天不等)的开盘价,最高价,最低价和收盘价。
蜡烛图的主要问题是:市场并不遵循这一时间规则,人们不会在特定的时间或每隔N分钟/小时之后进行交易。此外,现代市场是由算法规则驱动的,人们必定是在需要的时候下注,而不是在特定的N秒后。若是根据固定的时间间隔对历史数值数据进行采样——当交易非常活跃时,我们会取样过少,交易低迷时则取样过多。
最后,根据上面提到的,可以得出下列结论(实证结论):根据时间采样的bars具有“糟糕”的统计特性,即较低的序列同类相关性,存在异常值,常态分布测试不成功。
解决办法是根据其他规则对bars取样:
· Tick:当出现N个Tick时,对OHLC(开高低收价) bar采样
· 成交量:当某项资产成交量达X股时,对OHLC bar采样
· 成交额:当某项资产成交额达Y美元(或其他货币)时,对OHLC bar采样
· 不平衡:当价格的涨跌率或买卖比率与期望值有偏差时,对OHLC bar采样
在下面的时间序列例图中,可以直观地看到如何获得这些bars:
用以上提到的方式方法对香港专业教育学院(IVE)的bars采样的比较图
上面提到的所有方式方法都是为了创建包含相同数量信息的bars:每个tick bars的交易数量相同,但是成交量却大有不同,因此采样成交量bars会更好,这样每笔交易的成交股数就相同了。成交额bars则更进一步,每一个bar的交易的市场价值相等。不平衡bars可用于tick,成交量和成交额bars。对于不平衡的tick bars,我的解释是,它是从N个ticks采集的样本,且遵循类似的价格趋势。
正如你所看到的,所有的方式方法都非常依赖市场的微观模版结构来重建时间序列。让我们检查一下这些bars是不是是否名副其实。这里的时间bar为十分钟,每100个bars采样一个tick bar,每达到10000股交易采样一次成交量bar,成交额每达到1000000美元采样一次成交额bar(从数个月的数值数据中采集样本)。
根据不同的bars采样规则得到的收益分布比较图
它们的统计特性如何呢?根据其序列同类相关性,标准偏差和正态性检验等不同参数得到的bars的比较图如下。
可以看到,对于每一个参数,用其他规则采样bars比根据时间采样bars结果效果要好(方差除外,所有的方差都很低)。
如何正确标记数值数据集
Copyright © 广州京杭网络科技有限公司 2005-2025 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有