模型量化 汤森路透李亚峻:starmine量化模型详解

量化投资 模型 基本面_量化交易模型_模型量化

汤森路透高级量化研究员李亚峻

2015年汤森路透StarMine全球卖方分析师评选“中国大陆及香港地区”奖项结果于12月3日揭晓,共74家卖方机构超过1010位署名分析师参与评选,涵盖了中国大陆及香港地区主流券商研究机构。汤森路透高级量化研究员李亚峻详细拆解了starmine量化模型

以下为文字实录:

李亚峻:尊敬的刘煜总裁、各位嘉宾、各位领导、各位分析师,大家下午好!

我简单自我介绍一下,我是StarMine在旧金山量化团队的一员,我在汤森路透StarMine旧金山办公室工作了将近十年,一直从事量化模型的测试、研究、建立,同时帮助我们的客户更好的使用和了解我们模型的工作。

今天因为是StarMine的颁奖典礼,所以我给大家详细介绍一下研究员的评级是怎么产生的,在我们这个体系里面,在我们这个量化模型产品里面可以有一个怎样的应用。

下面开始今天的介绍。

首先介绍一下我们StarMine。

StarMine是创立于1998年,成立之初它的核心产品就是给卖方研究员进行评级,以此为基础而衍生出了一整套的以选股模型为主的量化模型和产品。StarMine 在08年的时候被汤森路透收购以后,因为汤森路透的数据覆盖面是非常广的,所以我们的视野从单纯选股模型,扩展到别的领域,包括了宏观分析、信用分析、期权模型、文本数据挖掘,这些都是我们已经开发的或者正在开发的量化模型和产品。

我们StarMine核心的方法论就是说我们要根据有理论基础支持的市场意向出发,来建立透明的、直观的、高效的量化模型,这是我们的方法论。我们不想做黑盒子的模型,就是根本没有办法跟别人解释我们这个模型是怎么做的,使用的是什么数据,我们方法是什么,这不是我们的风格。

这是今天我可能会涉及到的内容,第一个我们刚才讲的研究员准确度的评级,是怎么产生的?由此衍生的我们智能预期。第二部分介绍一下,刚才主持人也提到了,有了这个分析工具我们做它做投入因子,产生我们StarMine主要的量化模型,叫做分析员预期修正模型,简称ARM。

下面介绍一下研究员评估系统。我们是怎么来评估我们研究员的?这包括三个方面,刚才主持人也简单介绍了一下,包括数据来源;评价标准;第三个是很重要的问题,如果我们可以评价一个研究员预测的准确度,这个准确度是可以持续的吗?是一项技能吗?还是说现在准确,以后不准确,那么这个评价是没有什么意义的。

首先我们用IBES作为我们数据来源,是记录了所有的卖方分析师评价、推荐以及预测数据比较庞大的数据库。这个数据的收集开始于1976年,是一个全球性数据库,包括超过1700家的卖方机构。

这个数据库包括的内容:第一项,研究员股票的推荐评级,包括买入、卖出、持有,一般是这三项。说到预测的数据,包括了两类数据,一个是预测细节,Estimates Details,就是会跟踪一个分析员所有的预测数据以及相关信息,这是预测细节的数据库。第二个是综合数据库,可以说是统计数据,会有一系列的根据,细节的预测数据做出的统计,这其中包括了我们大家比较熟悉的每股盈利预测均值,也就是大家说的市场的一致预期。

有了这个数据来源,一个研究员在我们系统里面怎么能够获得高评价?第一,他要跟其他的研究员不一样,不能说你是从众或者人云亦云,这样在我们系统里面是不可能得到高分的,你要跟别人不一样,或者跟市场一致预期不一样。第二,你要勇于比较早的做出你的预期调整,先于他人而行动。第三,刚才主持人也介绍了,因为每个股票预测的难易程度是不一样的,你把比较难预测的股票和比较容易预测的股票放在一起,并且给这些股票做预测的分析员放在同一个水平上面评价,这是不公平的,所以我们系统会对这个做出相应的处理。第四,在整个预测期间,总体来说跟公司发布的最终实际值相比,你一直是相对准确的。

下面以五星研究员作为一个具体的例子,这个例子是说这个公司的财政季度是在6月份结束,这个报告的时间是06年的8月份,这个图上黄线代表了,在我们系统里面评价为五星研究员,我们追踪了他在财政季度里面所有的预测数据。跟它相比较的蓝线是市场一致预期。这个图可以看得出来我刚才讲的几条标准,五星研究员跟市场一致预期是一直不一样的。

我忘了介绍,黑线,这是这个公司在8月份发布实际数据的实际值,大概是0.56。

可以看到,这个研究员首先跟一致预期不一样。第二,一直在引领着这个一致预期,跟随着这个调整的步伐。第三模型量化,最终来说跟实际的发布值相比,一直比一致预期更加准确,更加靠近公司的实际值。这是一个简单的例子。

我刚才也讲到,你现在说评价这个研究员准不准确,或者上个季度准不准确,这个准确度,如果不可以持续的,这个评价是没有意义的。我们只知道过去的事情,如果这个不能持续到将来,我们怎么可以用它作为我们的量化模型做进一步预测来用。所以我们的研究表明,研究员预测准确度是可以持续的,是一项持续的技能。五星分析师下一年还是五星分析师的概率,跌到一星分析师概率的四倍。

下面这个图表也简单的说明了这一点,这个图表有两行:第一行是五星研究员,准确度最高。第二行是一星研究员,准确度相对最低的。五星研究员,在下一年还是五星研究员的这个百分比是22%。降到一星研究员的百分比是6%。同样,另外一个角度来说,一星研究员维持在一星研究员,在下一年,这个百分比是23%。而变成五星研究员这个百分比是6%。所以从这两个数据可以看出来,这个研究员预测准确度有一定的可持续性的。

如果这个准确度可以持续,我们就可以利用这个发现来创造出一个跟一致预期不一样的,更加聪明的一致预期,这是我们StarMine独创的SmartEstimate,智能预期。

跟一致预期相比,我们智能预期有什么特点呢?市场一致预期把市场上面现有的研究员预测数据放在一起做一个简单的算术平均,这是一致预期怎么得来的。我们SmartEstimate是智能的加权平均,包括下面几个主要的步骤:

第一个,第一我们会把现有预测数据当中时间比较长的、比较旧的预测数据剔除出去。第二我们会把有一些统计上面明显是数据错误的预测数据也会剔除出去。这是剔除过时或者明显数据错误的预期。

第二个,我们会构建一个事件,重要的事件,这个事件是怎么定义的?因为我们知道市场上面一旦接受一个公司重要的信息,不管是新闻,还是说这个公司自己发布的公告,一旦有这样的信息出来以后,一般研究员接触到这样的信息,会反映在他们的研究报告、预测数据上面,我们在我们的系统里面怎么定义这个事件,我们会说在某段时间之内超过一定数量的研究员,同时做出了同一个方向比较大的修正。在所有事件发生之前的数据,我们就剔除出我们预测数据。因为我们觉得既然已经有这么一个重要事件发生,所有研究员应该把这个信息反映到最新的预测上面,所有这个事件发生之前的预测数据应该是无效的。

经过这两步以后,给剩下有效的预期有一个加权的步骤,两个方面进行加权:第一是刚才一提到的,我们知道这个研究员过去预测数据是比较准确的,把现在预测数据给予比较高的权重。第二个包含更加多、更加完整的信息,最新的预测数据给予比较高的权重,两方面进行加权,就得到了SmartEstimate。

这是一个例子,某一个公司预测细节的截图,这个公司有13个研究员。这个截图最下面三行有一个,这三个预测数据因为时间太长,是很老的预测数据,我们剔除出去。在上面这几行,是我提到的RevisionCluster,意思是说已经发生了,我们系统探测到了这个事件的发生,现在有这个事件的发生,所有Estimates里面数据,发生在这个事件之前的,我们也剔除到计算以外。这个公司剩下的就是四个有效的预测数据,截图的头四行。在剩下的预测数据当中根据刚才说的加权的两个标准进行加权。第一行预测数据,因为来自于五星研究员,有一个是预测准确度,来自五星研究员同时又是最新发布的数据,时效性很强,我们给他的权重最高,达到了30%。这是我们SmartEstimate简单的例子。

这个图把智能预期和一致预期放在一起进行比较。总的来说智能预期和一致预期是有差异的。智能预期做的调整是比较大幅度的,一致预期一般相对来说用小幅度调整来跟进智能预期的变化。

这个蓝线是我们智能预期,金线是市场一致预期。

下面我介绍一级比较重要的分析数据,叫做预期差值。智能预期和市场一致预期的差异百分比。这个预期差值有什么用?我们知道一个公司一般发布盈利数据会有盈利异常,这个可以是正向的,可以是负向的。我们研究表明,用过去十年的数据做回测,我们预期差值在70%以上的时间是可以预测这个盈利异常的发生和它的方向。这个条件,当市场一致预期和智能预期相差度比较大,如果相差度表现在大于2%的情况下面,我们预期差值可以比较准确的预测盈利异常的发生和方向是正的盈利异常或者负的盈利异常。

这还是以上面这个图作为一个例子,这个例子就是说,其实你可以看到,在这个时间段的开始,比如说5月26日的时候智能预期和市场一致预期是非常贴近的,非常接近。但在5月28日到30日这一段时间,我们系统里面有四个评级比较高的研究员他们对他们的数据进行了下调,盈利预测进行了下调,导致我们智能预期发生了大幅的下调,非常大的变化。因为我们系统是给评级比较高的研究员比较高的权重,导致我们智能预期发生比一致预期大得多的变化,这两条线就开始分杈。这就产生了我们预期差值,这个预期差值达到了负的8.5%。

数据是说,在这个公司7月24日的时候发布了实际的数据是81美分。我们智能预测是86美分,一致预期是94美分。预期差值是负的8.5%。所以这个公司发生了一个负的盈利异常的事件。我们盈利预期在整个预测的时间段一直在预测会发生这样的事件,而这个事件实际上发生了,而且它的方向也是正确的。

刚才我介绍了研究员的评价系统和用它衍生出的智能预期,下面介绍一下用这两个作为投入因子量化的选股模型,分析师预期修正模型,简称ARM。

大量的数据和研究表明,这个预期修正和股票市场表现是密切相关的,我们StarMine这个ARM模型就是要预测未来分析师的预期修正,从而预测股票未来的市场表现。这个模型跟传统的,因为市场上面其实有很多这种,会有不同版本预期修正模型。我们StarMine这个预期修正模型跟别的有什么不一样呢?

第一点我们会用我们独有的智能预期和预期差值跟历史修正相结合,这样能够更加有效的预测研究员的预期修正。同时,我们也把我们的财务指标扩展到了,从每股盈利扩展到了非盈利指标,包括营收、税前利润,另外我们会把研究员评级的平均变化考虑进去,就是推荐评级的变化。最后,我们不只是考虑单一的财政年度的预期修正,会考虑包括本年、本季度和明年综合的财政年度的预期变化。这是具体模型构成的因子,我刚才提到,EPS,公司主要的盈利指标。还有税前的盈利,还包括营业收入,每一个子模型里面都包括了过去不同时间段,比如说7天、14天、90天一致预期的变化,也包括刚才提到的预期差值,这两个部分相结合,再加上买卖持有观点的平均变化,就构成了我们ARM的模型。

这个模型主要输出的数值,我们给每个股票百分位的排名,这个数据是每天更新的,覆盖了全球的股票市场。从1到100分给每个股票打分,100分的股票表示我们研究员预期修正发生的可能性最大,或者说卖方市场对这个股票持最正向的观点或者是意见。所以我们会预测这个股票在未来市场表现应该是高于市场平均表现的。

这个模型有什么用途呢?好像我刚才提到了,作为投入因子之一,我们可以提供分析师排名,从一星到五星,包括了股票的排名,作为一个选股模型,从1到100,给你一个评分系统。同时,如果作为一个多因子的量化策略,这个模型可以作为其中一个量化因子,跟系统里面已有的其他量化因子进行有机的结合。如果非量化策略,在你的选股组合构建的时候,前期可以用我们模型做一个筛选的标准,因为市场上面有这么多只股票,如果进行基本面研究不知道从何下手,会有一套筛选的标准,这个模型可以作为其中一个条件,可以帮你把你的范围缩小到比较小的范围,你可以进行更深入的基本面的分析。同时,如果你有一个投资组合,也可以用我们这个模型作为动态的追踪、管理你的投资组合的工具,或者是手段。

我刚才介绍的分析师修正模型是我们全套模型里面的一个,我们会分好几块:经典因子,刚才提到的分析师修正模型,还有价值模型、动量模型。还有质量与信用因子模型量化,盈利质量,还有一整套的信用风险模型,从不同的数据源分析公司基本的财务状况和信用风险。另外还有智钱因子这个板块的模型,我们有一个主要的全球性的选股模型,叫做持仓预测模型,是使用机构投资者的持仓数据来分析一个股票在未来机构投资者市场上面受欢迎的程度而进行选股的模型。主要美国有两个智钱因子模型,空头净额、内幕交易。

同时我们有一整套的量化工具跟分析相结合。汤森路透有一整套的量化投研的解决方案,从数据开始,各个类别的数据,基本上你能想到的数据我们汤森路透都有。分析上面,我们StarMine这个阿尔法模型,有新闻文本挖掘模型,等。工具上面来说,我们有强大的量化平台,TRQA,这把数据和分析工具非常强大有效的结合起来,帮助你进行量化研究。同时还有高频实时数据,这也是非常强大的工具。

我们是希望,关于汤森路透,我们希望把我们的产品、工具融入到业内人士的日常工作流当中,能够帮助你做出比较准确、及时、高效的投资决策。这是我们汤森路透发展的历史。是我们一直在创新和进步。

我今天演讲的内容,如果有问题或者想进一步了解,中国的话可以联系yao.zhou。如果有想进一步了解我们量化模型,可以联系我们StarMine团队。

我今天的演讲就到这里。谢谢大家!

———END———
限 时 特 惠:本站每日持续更新海量各大内部创业教程,一年会员只需128元,全站资源免费下载点击查看详情
站 长 微 信:jiumai99

滚动至顶部