![统计学视角下的金融高频数据挖掘理论与方法研究](https://wfqqreader-1252317822.image.myqcloud.com/cover/341/936341/b_936341.jpg)
第二节 相关概念辨析
一 高频交易数据
在金融市场上,“交易高频数据”与“高频交易数据”是两个不同的概念,后者是对“高频交易”的记录;前者很大程度上是对“一般交易”的高频记录 (实时记录),因为它很难对“高频交易”做记录 (因为秒的分辨能力不够高)。即便从我们拿到的level-2高频数据来看,也只是精确到毫秒,并且仍有多笔交易重叠于同一时刻 (如表2-4所示)。不过,反过来高频交易策略也会依赖于 (超) 高频数据,比如采用高频数据验证市场有效性可以为高频交易是否存在获利机会提供佐证。二者的共同点是对短期的关注,特别是大量的日内数据。
表2-4 某股票的level-2超高频数据
![](https://epubservercos.yuewen.com/C848A7/10797207103800006/epubprivate/OEBPS/Images/figure_0042_0008.jpg?sign=1739286092-LESArsVGKvB5TIoQ3iQWTH6nOQfd1hKM-0-99f248ddca5b924db23f79f5f4e89254)
资料来源:CSMAR中国证券市场Level-2 (2010) 高频数据库 (后文对高频数据源有详细说明)。
20世纪90年代,技术的发展催生了高频交易 (high - frequency trading; Computerized trading; systematic trading),现如今,高频交易已经发展为一个规模数十亿美元的产业。事实上,分笔数据处理与资金高周转率基本上已经定义清楚了什么是高频数据 (Tick-by-tick data processing and high capital turnover define much of high-frequency trading. ),其中,算法交易和日内开平仓是两个派生的特征,因为分笔数据处理与资金的快速周转自然要依靠算法交易 (Algorithmic trading) 才能实现,资金高周转率隐含了开仓和平仓要在日内且迅速完成 (Intra-day entry and exit of positions) ——这大大降低了隔夜持仓成本。
简言之,高频交易指的是买卖证券 (股票、期权等) 凭速度获利的一类交易——快速周转。其速度快到什么程度?千分之一秒 (1毫秒),甚至百万分之一秒 (1微秒)
,这自然需要在极短的时间内能够判断出有价值信息的高性能计算机硬件设备配合,甚至要求托管服务器 (colocation) 离交易所的Matching Engine越近越好
。此外,控股公司 (proprietary firms) 还会采用交易中心数据源 (Trading Center Data Feeds)。因为高频交易决策并非单纯依赖于当前数据,而是对大量历史数据的迅速处理 (捕捉价格的微小变动),以及对价格微小变动迅速反应构造资产组合头寸
,所以高频交易并不能等同于投机交易,而是技术进步使投资不必再等那么久了,或者说,它更像是对技术分析
的革新。
与高频交易相联系的概念有量化投资或算法交易 (quant models)、统计套利 (statistical arbitrage) 等,其中,算法交易是给定市场环境下做出买卖决策之后对买卖指令的优化,比如,是主动执行 (以接近市价下市价订单) 还是被动执行 (以远离市价下限价订单),是一次性交易还是分割成多次交易。注意,电子交易 (electronic trading) 仅仅指的是通过电子方式传送交易指令,算法交易要比电子交易复杂得多。统计套利是做空机制下的一种交易方式,起源于20世纪80年代摩根斯坦利研究团队开发的匹配交易 (pairs trading) '。注统计套利一词被首次使用大约在20世纪90年代早期。这方面最新的文献请参阅Irene Aldridge (2011)、赵胜民(2010)、Pole等 (2007)。中国2010年4月股指期货推出之后,各种金融衍生品迅速登上资本市场的舞台,为这些现代交易方式提供了现实基础,特别是量化投资
无论从研究和实务方面都有了非常大的发展。在第二届 (2012) 中国量化投资国际峰会上,国信证券股份有限公司董事长何如提到,目前 (2012) 市场上券商集合体的方式采用量化投资的产品只有10只左右,公募基金采用量化投资的产品只有15只,私募采用量化投资只有20多只,总规模只有200多亿美元 (美国2011年量化投资和对冲基金的规模达到2万多亿美元),占到2%的规模 (美国2009年量化投资的规模在全部投资中的占比已经达到了30%以上)。因此,我国的“量化投资”无论是在数量上还是在规模上还有很大的发展空间。
注2:比如,通过相关性 (如同行业)、最小价差、协整等方法选定两个相关性较强的资产i和j,计算价差 ΔSij, t = Pi, t - Pj, t的均值
和标准差 σ =
,然后当价差偏离均值足够大的时候,比如2σ,则买入j卖出i;当价差回归到均值附近 (偏离均值足够小) 时,则做相反操作——买入i卖出j。即相关性很大的资产,若价差很大,则后必收敛。但与一般均值回归不同的是,身高不可能高到4m,但资产价格却可以。
高频交易区别于低频交易主要在于:(1) 对市场的反应是由高性能电脑所驱动的,也正因如此,它对市场能做出迅速的反应,且规避了人类的犹豫和感性的干扰、对市场有效性 (把信息迅速反映到价格上) 与流动性都有助益、对技术创新 (比如更高性能的计算机) 也是一种牵引
; (2) 交易量大而单笔交易的平均收益小。高频交易者 (high-frequency trader) 的前身就是传统的做市商 (market-maker),只是随着技术的发展,他们不再通过喊价、电话而是采用电子交易 (电脑交易系统执行一笔交易仅需400微秒,比人类眨眼的速度快了1000倍
),买卖价差也随之缩窄,所以高频交易主要靠“量”( 频繁地大量买卖) 来获益。比如在美国,几乎日成交量的一半采用的是高频交易 (根据Tabb集团的Andy Nybo估计,美国股票市场高频交易量所占份额已从2005年的21%上升到2009年的61%),在伦敦能占到1/4。此外,在散户投资者无法涉足的庞大场外交易“暗池”(Dark pool) 中,可能存在更多的高频交易
。图2-8和图2-9给出了纽约证券交易所 (New York Stock Exchange, NYSE) 平均每天的交易量和交易笔数。显然2009年的日平均交易量和交易笔数都有大幅增加,市场的流动性和市场活跃程度得到增强。注意,2010年有回落,这可能受2010年5月6日美国道琼斯指数暴跌瞬间998.5点 (9.2%) 的影响 (事后调查为程序化止损指令与卖出指令集中触发所导致)。
![](https://epubservercos.yuewen.com/C848A7/10797207103800006/epubprivate/OEBPS/Images/figure_0046_0001.jpg?sign=1739286092-GXsCZ42zwBiXfPfIQ2pUjm1zm5a1xiMl-0-2e04066605e7995c563e69971b742556)
图2-8 纽约证券交易所日平均交易量 (consolidated)
![](https://epubservercos.yuewen.com/C848A7/10797207103800006/epubprivate/OEBPS/Images/figure_0046_0002.jpg?sign=1739286092-U6p4UI2442lAI8oj5ZtBMgGKDjtHCO6Q-0-8b378e29cfe140a2f45cf30171f45b89)
图2-9 纽约证券交易所日平均交易笔数 (consolidated)
高频交易本身的属性使其能应用于任何有足够流动性的金融工具。这里,“有足够流动性的金融工具”指的是,在一个交易日中的任何时刻都有足够买家和卖家的金融资产。另外,需要有高性能计算机及其维护升级,这种信息科技的“军备竞赛”在一定程度上促进了技术的进步。高频交易的成功实施需要两类算法:产生高频交易信号的算法 (those generating high-frequency trading signals) 和优化交易执行的算法 (those optimizing execution of trading decisions),其中,前者要比后者复杂。
高频交易就是通过一系列复杂且高速计算机程序来生成、发送和执行交易指令的。根据执行方式不同可以将高频交易策略区分为全自动交易策略 (平均持仓时间较短,一般在1分钟之内) 和半自动交易策略 (平均持仓时间大于10分钟);美国证交会 (SEC) 在“Concept Release on Equity Market Structure”中提到了四类比较宽泛的高频交易策略:被动做市策略 (passive market marking)、套利策略 (arbitrage)、结构性策略(structural)、方向性策略 (directional)。Aldridge (2010) 在“High-Frequency Trading”一书中将高频交易策略分为:自动提供流动性Automated liquidity provision (平均持仓时间小于1分钟)、市场微观结构交易Market microstructure trading (平均持仓时间小于10分钟)、事件交易Event trading (平均持仓时间小于1小时)、偏差套利Deviations arbitrage (平均持仓时间小于1天)。隔夜持仓 (隔夜头寸) 是很少见的,在高频交易中,因为存在隔夜风险。
以下我们以闪电指令 (flash orders) 为例做一个简单的说明。闪电指令交易是高频交易很有限的一部分 (根据Rosenblatt Securities数据,在美国,2009年6月,闪电交易只占高频交易的5%左右),于2006年左右由Direct Edge开创,为了争夺客户市场,NASDAQ OMX和BATS Trading等后来也推出了闪电交易。另外,闪电指令的使用也并不限于高频交易员。零售经纪商、机构投资者、自营交易机构以及自动化做市商也会使用这种指令。闪电指令交易是某些券商可以利用高性能计算机先于公开市场几分之一获取和发出买卖证券的指令。尽管闪电指令交易仅占交易量的很小一部分 (2%—3%),但一些投资者可能会提前看到指令状况,这也正是引起监管机构注意的地方。
在2009年8月6日NASDAQ OMX和BATS Trading宣布于2009年9月1日起主动停止闪电指令的前两天,美国证交会 (SEC) 主席玛丽·夏皮罗 (Mary Schapiro) 表示SEC计划发布闪电指令交易禁令
: “市场缺乏透明会削弱公众对股票市场的信心,我们将继续竭尽所能,积极追踪由高频交易或是其他交易类型造成的非法操纵市场的行为。”2009年9月17日,SEC正式提交闪电交易禁令。让美国金融监管部门更为担忧的是,部分高频交易策略给市场带来的不仅仅是动荡,还有不公平。
然而正如许多市场参与者所指出的,市场上信息的获取从来都不平等。过去实行喊价交易,交易商无意中听到站在自己几英尺外的一位竞争对手讲出的信息,就能获得优于竞争对手的价格。来自银行和经纪商的交易员通常将老年散户投资者发出的指令称为“信息不足的指令流量”,就讽刺性地承认了这种不平等。
我们有必要区分违法行为和招人讨厌的行为。抢先交易 (在执行客户指令前进行交易) 属于前者;而采用能节约毫秒之差的最先进技术,用算法来驱动交易,在转瞬间买卖资产,则属于后者。市场从来都不利于散户,无论信息是涌动在公开喊价的交易池中,还是高技术含量的交易系统内。
二 交易高频数据
在力学、声学、电磁学等领域,“频率”被定义为周期的倒数,或单位时间 (1秒) 内周期性变化的次数,即1Hz。按照这样的定义,“高频”指的是电磁波谱中3—30兆赫 (MHz) 的短波 (波长为10—100m); “超高频”指30—300兆赫 (MHz) 的米波 (波长为1—10m)。
在数学和统计学领域,“频率”被定义为频数的占比:n次独立重复试验中,随机事件A发生的次数n (A) 与n的比值。特别地,在进行大量独立重复实验时,随着实验次数的增加,不确定事件A发生的频率会逐渐稳定到某一个数值附近,这时候就用“平稳”的频率来作为这个事件发生的概率的估计,即:
当n→∞时,Bernoulli弱收敛 (依概率收敛)
或Borel强收敛 (以概率1收敛)
经济金融领域研究的“高频数据”、“超高频数据”、“低频数据”主要是根据计量单位来做区分的。“低频数据”通常指以天、周、月、年作为计量单位的数据;“高频数据”(high-frequency data, HFD) 主要以小时、分钟或秒为采集频率的数据;而“超高频数据”(ultra high-frequency data, UHFD) 则指的是逐笔记录 (transaction by transaction) 的数据,由于这类数据可以看做是以秒为单位记录的,所以在有些文献中也称为逐秒记录数据 (tick by tick)。对超高频数据这样的理解逻辑源自“tick”本意“钟表滴答走时”。传统的或更专业的理解思路是,“tick”为股价跳动的最小单位 (影响市场交易活跃程度) 。请参见表2-5给出的实例数据。
表2-5 高频数据范例
![](https://epubservercos.yuewen.com/C848A7/10797207103800006/epubprivate/OEBPS/Images/figure_0049_0001.jpg?sign=1739286092-IMWBCrKScaw79MmCbamocZVBh1rkv6Yk-0-3083abc214f34fc389eb2dbcc62f3672)
事实上,对于前文提到的高频交易而言,以“秒”为度量尺度的超高频数据是非常粗糙的。因为在瞬间 (某一秒) 可能有多笔交易“同时”成交,甚至以不同的价格“同时”成交。这里的“同时”是因为我们所戴眼镜的度数太浅了 (以秒计量),所以需要换更深度数的眼镜 (以毫秒、微秒等计量)。
表2-6 超高频数据范例
![](https://epubservercos.yuewen.com/C848A7/10797207103800006/epubprivate/OEBPS/Images/figure_0050_0001.jpg?sign=1739286092-amZ3f6fxhfIkxT6GuBtKtn0SSmlcSEmx-0-4a05ae037cc6744a3c211c572b418368)
注:表中数据为某只股票在2010年5月4日这一天的部分超高频数据。
值得注意的是,第一,HFD和UHFD都是日内数据 (intra-daily data),但与HFD不同的是,超高频数据并不是抽样数据,而事实上是全样本记录数据。
第二,HFD和UHFD的价格都是离散的 (price discreteness)。这是因为交易所对最小交易价格单位有限制,所以每笔成交价格只能是最小交易价格 (tick size) 的整数倍。我们通常遇到的时间序列、连续时间金融,区别主要是自变量 (时间) 是否离散,因变量[x( t)]的定义域皆为整个实数域或大于零的部分,而这里的离散价格意味着因变量的取值是受限的(离散取值)。
第三,HFD和UHFD都是不等间隔数据。从函数的观点来看,金融高频数据以时间t为自变量,设ti为时刻i,则日内取样间隔 Δti=ti-ti-1假定为一常数,如5分钟、10分钟或30分钟;而超高频数据则以交易为自变量,设ti=t( i) 为第i次交易的时刻,Δti=ti-ti-1是两次交易的时间间隔,则即便在日内,它也不是等间隔的而且这个间隔是随机的。
事实上,(1) 高频数据也不是等间隔的,比如以5分钟为采集频率,由于沪深两市连续竞价 (正常交易) 时间为周一至周五每日9: 30—11:30和13: 00—15: 00 (9: 15—9: 25是集合竞价时间),所以,11: 30—13:00之间的间隔就不再是5分钟了。进一步,今天的15: 00到明天的9: 30,二者之间的间隔也不是5分钟。更进一步,周五的15: 00到下周一的9:30,二者之间的间隔也不是5分钟。
更重要的是高频数据存在非同步交易 (non-synchronous trading; asynchronous trading) 问题。以股票交易为例,不同的股票,交易时间 (频率) 并不相同,然而记录时却以相同的频率取样 (如10分钟、一天)。这在低频数据中并不是问题,因为分秒差异相对于天而言是可以忽略的,但在高频数据中却不容忽视。比如噪声在低频数据里可以忽略,而在高频数据里却有显著影响。事实上,即便是单只股票,其交易频率在一天内的不同时段也不尽相同 (如可能开闭市时段较密集,中间时段较松散)。所以,如果采用固定取样频率,结果可能会有偏差。如Tsay (2010) 中提到的Lo和MacKinlay (1990) 的研究,该研究考虑了非同步交易中的交易中止现象 (non-trading),结果表明,在有效市场中,非同步交易可以导致观测收益率具有“伪负一阶自相关”。
(2) 如果区分交易时间和钟表时间,那么低频数据也不是等间隔的。比如日收益率序列 (通常取每日收盘价),其钟表时间间隔是相同的(1天),但交易时间间隔不一定相同 (每天最后一笔交易的时间不同)。对于低频数据而言,这种交易时间上的差异相对于1天 (钟表时间) 而言是非常小的,可以忽略。但对于高频,特别是超高频数据而言,显然这种交易时间上的差异是值得关注的,因为至少时间上的偏移使得序列与时间的关系变得不可靠了。
设错偏点(xi, yi),其中i=1,2…, n, {xi}是钟表时间序列 (等间隔);真实点(xi-δi, yi),其中i=1,2…, n, {xi-δi}是交易时间序列 (不等间隔)。于是,
钟表时间序列的回归模型:Yi=α+βXi+ui
交易时间序列的回归模型:Yi=αˊ+βˊ (Xi-δi) +vi
=αˊ-βˊδi+βˊXi+vi
注意:这里βˊδi并不能归入扰动项,其原因是δi是变动的方向、是确定的;也不能将βˊδi归入常数项处理,因为δi是变动的。为此,可以将βˊδi作为解释变量看待,但δi是随机的,所以写作:
Yi+βˊδi=αˊ+βˊXi+vi
![](https://epubservercos.yuewen.com/C848A7/10797207103800006/epubprivate/OEBPS/Images/figure_0052_0001.jpg?sign=1739286092-vSy3ukl6eDfwzZSrynNsgsCteKgANm4h-0-cbed4a8c96e60fc00e2e7844f280e7de)
结果很可能出现 β 不显著,而 βˊ显著的情形。因而,等间隔处理(超) 高频数据很可能会得出错误的结论。也正因为 (超) 高频数据的这种不等间隔性,所以一般的时间序列方法不能直接套用。
第四,与低频数据相比,金融 (超) 高频数据的质量往往并不高(大规模数据的基本特征),因为交易数据会因种种原因而缺失,某些交易的确切时间也不见得准确 (时间记录尺度相对于高频交易而言显得粗糙),而且还有微结构噪声、跳跃成分等因素干扰。所以,在进行金融(超) 高频数据挖掘之前,数据预处理工作仍然是非常重要的环节。而了解清楚市场是如何运作的、数据是如何产生的,无疑对数据预处理有非常大的助益。
第五,Zhou (1992) 的研究表明,高频与低频的区别仅仅是噪声层面的:在低频数据里,噪声可以被忽略;然而在高频数据里,噪声是显著的。Madhavan等 (1997) 对纽约交易所的274个高频样本的研究发现,60%的价格波动可以归因于微结构噪声。这就好像是在较小的尺度上(如短期) 犯错会导致一个凸点,但在较大的尺度上 (如长期) 这个凸点可能就被“磨圆”了 (相对来讲不那么重要了)。这也就是为什么微结构噪声在高频数据研究中非常重要的原因。市场有效性的检验也是如此——低频比高频更倾向于有效。Gérard Pirès在谈到关于一部影片中导演的痕迹时说,短片就比长片要明显许多。
所以,在不同尺度下,可以有截然不同的结论,“横看成岭侧成峰,远近高低各不同”,从系统论的角度看,我们必须承认,不同层次 (类别) 有不同层次 (类别) 的规律 (除了无特征尺度的“自相似”,它在不同的尺度上表现出相似或统计相似的性质)。比如,微观个体的行为不可以简单加总去推断群体的行为;研究了短期的行为,也不可以妄断长期。应该注意,这里本身并不涉及推断问题,不能用这个层次的观察来推断另一个层次,推断应该是在同一个层面 (尺度) 的,包括外推和横向比较。比如,由可获得的样本推断未知总体,它仅仅是数量上的策略。
第六,大多相关文献认为,金融市场上的信息对证券价格变化的影响具有连续性,而低频数据是离散的,这必然会造成信息的丢失,而HFD加细了取样间隔,增加了样本容量,因而包含了比以往更多的信息。即便如此,站在时间序列的角度来看,样本容量增加并非一定有助于分析精度的提高,比如采用60年的数据并不必然比30年的数据优越,因为可能经济结构有变化,这使得前30年与后30年的数据实际上反映的是两个截然不同的总体。诚然,取样间隔过大会损失信息,但这并不意味着间隔越小越好就越精确,因为:
(a) 取样间隔越小 (频率越高),越容易受到微结构噪声 (micro-structure noise) 的影响,而且还要处理跳跃成分。
(b) 根据数字信号处理理论,模拟信号 (连续信号) 首先也要经过离散化处理 (抽样) 变成数字信号,才可以进入下一步分析。而且奈奎斯特 (Nyquist) 采样定理表明,当采样频率大于信号中最高频率的两倍时,采样之后的数字信号就可以完整地保留原始信号中的信息,即间隔小到一定程度就完全可以根据采样值还原原始信号,频率再高就会出现混叠。
退一步而言,根据统计抽样理论,如果采用合适的抽样方法,那么抽样的效果并不弱于全面调查。所以,问题并不在于是否采用抽样方法,而在于如何设计和实施抽样。事实上,从统计的视角来看,过于细致的数据并不利于展现数据的总体特征。因而才会引出分组的重要性,即分组对数据进行人为的、有目的的离散化梳理,这有助于问题的发现。模型也正是通过忽略枝蔓显现本质而简化了现实,才使我们专注于要解决的问题。
(c) 对于预测而言,高频数据可能并不比低频数据好,其一,高频数据有助于发现短期的动态行为,然而复杂的短期动态行为可能会叠加于长期行为;其二,高频数据有助于拟合,然而拟合与预测是两个不同的概念。比如Granger因果检验,它是用来检验预测的,而不是用来检验拟合的。过度拟合最大的问题是,对当前样本拟合好,但这并不能保证我们已经发现了数据中所蕴含的真正关系,恰恰相反,外推预测往往不尽如人意,在数学上我们称这种现象为延拓性比较差,特别是在小样本情形下,学习能力 (训练样本内) 与泛化能力 (训练样本外) 往往是不一致的。