金融MBA2020级 | 基于关键词搜索热度的股指和个股定价偏差分析和交易策略建议

2021年06月08日
信息来源:
浏览次数:
打印
从左至右:古今、杨弘、张久中、张辛夷
(按姓氏拼音顺序)

 
本文为清华-康奈尔双学位金融MBA2020级“数据分析与创业决策Ⅱ”课程报告,作者是第二小组:古今、杨弘、张久中、张辛夷。授课教师:余剑峰。余教授现为清华大学五道口金融学院建树金融学讲席教授、清华大学金融科技研究院副院长、清华大学国家金融研究院资产管理研究中心主任。2014-2015年期间为清华大学五道口金融学院的访问教授。2011年起是美国联邦储蓄银行(达拉斯)的研究员。他主要从事行为金融和宏观金融的理论和实证研究,研究成果已经发表在多份学术刊物,例如,美国经济评论、金融期刊、金融经济期刊、货币经济期刊、管理科学和动态经济评论等。余教授获得中国科技大学概率统计学学士,耶鲁大学统计学硕士和宾夕法尼亚大学沃顿商学院的金融学博士。他的研究成果曾获得多项奖项,其中包括 Smith-Breeden一等奖。

摘要
 
       通过数据分析发现,我国A股市场(比如以沪深300为代表的企业)在股票价格的大幅波动无法完全以企业基本面解释,违背了传统理性经济学“市场价格能够反映真实价值”的有效市场假说结论。以此为切入点,我组通获取关键词搜索热度指数(百度指数和Google Trends),利用回归分析等方法寻找其与A股大盘及个股股价波动的影响,试图从中寻找一定的规律,根据行为金融学解释并加以验证。经过一系列的数据分析及实证研究,我们发现中国的资本市场仍处于发展时期,与传统理性经济学中“完全竞争市场”的假设存在一定的背离,市场表现和企业基本面在特定情况下内关联性较弱,且投资者缺乏普遍的专业性,在制定投资决策时,常常被可获得性偏差、确认偏误、过度自信等行为金融学定义的认知及行为偏差左右,另外情绪变化对投资者的决策影响也无法被完全剔除。在此基础上,我组设计了:1.基于市场情绪的指数策略:通过程序持续监测关键词搜索热度走势并分组,当相关关键词热度分组处于预期收益率较高的组别时,提升A股权益类资产配置水平或买入相关指数挂钩产品,热度较低时则反之;2. 基于个股热度的选股策略:构建对个股有超额收益关联的关键词词库,通过程序持续监测关键词搜索热度走势并分组,当相关关键词热度分组处于预期收益率较高的组别时买入相关个股,热度较低时则反之;3.基于多个因子组合策略,即考虑将上述两个策略叠加做成组合策略对收益进行强化。通过这三种基于投资关键词搜索热度指数的投资策略,来抓取由各类投资者的偏差所产生的市场机会。美股市场较我国股市更为成熟,但行为金融学偏差仍然存在,据此,我们将如上投资策略运用于美股市场,发现该策略仍有一定的应用空间。
 
1. 概述
 
       本组回顾了近10年沪深300指数及个别成分股的指数/股价表现,并将其与相关成分股和个股公司的经营业绩进行了对比分析。
 
图1:沪深300指数与成分股业绩表现对比折线图
 
       如上图所示,我国A股市场尤其是以沪深300为代表的企业经营成果难以解释指数收益的数次大幅波动。根据传统理性金融学的估值理论,企业价值主要由其为股东带来的未来现金流折现回报决定,即股东分红的贴现值。从图中曲线可直观感受到,在分红增速没有巨大变化的情况下,沪深300指数在2015和2018-2019年的收益率波动无法被传统理论解释。同时,2020年分红的大幅下降也并没有及时体现在指数表现上,即企业业绩变化在企业股票价值的体现上存在一定滞后。
 
图2:贵州茅台个股收益率与公司业绩表现对比折线图
 
       在个股层面,从上图可以直观看出我组选取的个股贵州茅台(600519.SH)的股价波动与其分红增速存在一定的关联性。但不论从收益率波动的幅度和时间上都与分红的变化幅度和时间存在一定的偏差。
 
       我组同时对上述数据进行了线性回归分析,但由于分红和盈利等数据更新频率较低导致样本量较小,相关结果仅供参考。回归结果印证了前述直观折现对比分析结果,企业经营相关参数与指数和个股收益率的关联在统计上不显著。
 
图3:沪深300指数与成分股业绩表现回归分析
 
图4:贵州茅台个股收益率与公司业绩表现回归分析
 
       由于存在前述发现,本文旨在通过使用关键词搜索热度指数(百度指数和Google Trends)的高频数据对比相关股指和个股股价及其收益率,运用行为金融学的相关理论对上述关联进行解释,并利用该数据和分析形成对相关证券的投资策略。
 
2. 数据分析方法论
 
2.1 关键词热度动态分组
 
       本组获取了2011年至今百度PC和移动端对指定关键词的搜索热度指数(百度指数值越高,热度越高),并对其进行了按1年(或5年)动态排序分组,即将每个交易日的关键词搜索热度百度指数在前244(或1220)个交易日数据中排序,并根据搜索热度由高到低分为1-4四个组别作为该交易日的关键词热度组别排序。例如,2016年1月4日,“炒股”关键词的百度指数值为2357,而在2015年1月5日至2015年12月31日间的244个交易日中,排名75%分位的百度指数值为2392,因此2016年1月4日“炒股”关键词的热度组别为4。
 
2.2 在不同周期下的超额收益率对比分析
 
       基于沪深300和个股(贵州茅台,600519.SH)从2016年至今的指数和股价,根据相关交易日的关键词热度分组计算并比对各类关键词对指数和股价在不同时间周期下(T-20、T+1、T+20、T+40)的超额收益率,从而了解各关键词的搜索热度对相关证券超额收益率的影响,并根据相关行为金融学理论解释该影响。
 
2.3 对热搜关键词进行相关性分析
 
       通过对所选取的热搜关键词进行相关性分析,验证本文所假设的行为偏差在目标资本市场中真实存在,从而利用该些行为偏差对相关证券收益率的影响形成投资策略。
 
3. 数据分析的事实性结论
 
       我组选取了一系列关键词执行前述数据分析方法,通过分析其热度与相对应的指数或个股股价超额收益率的关系,尝试从行为金融学角度论证相应行为偏差对投资行为的影响。
 
       除了百度搜索指数本身与大部分公司基本面无关这一事实以外,我们在本次研究中所选取的关键词往往与基本面无关或者关联度较低,以剔除基本面变化对股价的影响因素。
 
3.1 关键词“茅台”
 
       根据前述逻辑,我组首先选择了近期在资本市场中热度较高的贵州茅台(600519.SH)进行分析。基于“茅台”关键词的百度指数和贵州茅台的个股股价数据,通过线性回归分析了搜索指数在不同期限延迟下(T-20、T+0、T+1、T+20、T+40)对股价的影响,并加入了成交量作为控制变量,如下图所示。“茅台”二字的搜索量与各期的股价都有十分显著的线性相关性。如概述中所分析的,尽管对产品名称的搜索体现出消费者对茅台酒品牌的认可从而可能会支持公司基本面的改善,该公司股价的上涨显然只有一小部分可以由公司基本面的变化所解释。
 
图5:“茅台”关键词热度与股价的线性回归分析
 
       因此,我组进一步对该关键词的热度进行了动态分组并对比了公司股价在不同时间周期下的超额收益率,结果如下图所示。在搜索热度超过过去1年中位数的情况下,茅台个股在未来1/20/40个交易日内都体现出较高的超额收益率。同时我们发现,贵州茅台在1年的周期内出现了搜索过热反而导致股价收益率降低的情况(即1组收益小于2组),说明当茅台个股的行情周期在1年以内,当搜索热度处于年内高点时可能导致超额收益降低。
 
图6:“茅台”关键词热度与贵州茅台股票超额收益率
 
3.2 关键词“炒股”
 
       在测试完有明显关联性的个股关键词之后,我组尝试选取了“炒股”这一可能影射全市场交易活跃度的搜索关键词进行分析。
 
       由下图可知,当我们观测搜索日前后不同期限的股指表现时发现,前20个交易日的超额收益往往会导致“炒股”关键词百度搜索热度较高,而这往往不代表沪深300指数已经被高估。相反地,其在T+1、T+20和T+40分别仍有较好的回报。换言之,当某日的“炒股”百度指数处于过去1年的中位数以上时,沪深300指数在接下来的1/20/40个交易日内有较高的超额收益。
 
图7:“炒股”关键词热度与沪深300指数超额收益率
 
       有趣的是,当我们把“炒股”关键词的热度根据前5年共1220个交易日的动态排名来分组时发现,过高的热度往往伴随着后续平凡的回报表现。结合中国资本市场的发展过程不难发现,每5年左右便会经历一次牛熊市的周期,根据5年周期对热点进行分组会导致热度最高的一组交易日时间密集分布在牛市顶点附近。
 
图8:“炒股”关键词热度(5年动态排名)与沪深300指数超额收益率
 
3.3 关键词“堵车”
 
       由于“炒股”本身与资本市场活跃度有着直观上的高度相关,为了进一步降低选取关键词与资本市场基本面的关联度,我组选择了“堵车”这一对中国投资者情绪影响较大且对大多数公司基本面影响不大的关键词进行分析。
 
       通过我们的分析发现,一次“高质量”的堵车对当天以及接下来一段时间内的股指超额收益率都有较大的提升作用。我们将在后文中通过行为金融学理论尝试理解情绪的波动对投资者制定投资决策以及股市整体收益率的影响。
 
图9:“堵车”关键词热度与沪深300指数超额收益率
 
4. 行为金融学解释

4.1 信念固执 Belief perseverance bias
 
● 可获得性偏差Availability Heuristic
 
The availability heuristic is a mental shortcut that relies on immediate examples that come to a given person's mind when evaluating a specific topic, concept, method or decision.

       可获得性偏差(包含有限注意力,惯性效应亦称为动量效应)是一种从心理上定义概念、评估理论、获取认知或处理信息时的捷径,即本能性地利用容易脑海中最容易获取或回忆起的信息作为制定决策时的决定性因素。
 
       Tversky and Kahneman 在其1973年发表的论文中指出,可获得偏差存在的底层逻辑是人们对于便于记忆的(如近期发生的)、可获取次数多的(如重复披露的)信息,更容易具有深刻的印象。因此在涉及到投资或生活决策时,这类因素相对于其他各类信息会更容易被想起,并作为制定决策的先决因素。这种认知偏差常常会导致投资者在制定投资决策时,过于依赖近期的信息,形成惯性搜索与获取诸如此类的利好信息(而非利空信息,在下文“确认偏误”中有具体说明),并将有限注意力集中于该信息,从而忽视原有信息的重要性,导致投资决策非理性,被可获得性偏差所左右。
       由于我国股市做空机制相对不完善且工具有限,导致投资者无法对看空行为及时作出相应的卖空操作,因此投资者对于“炒股”及其关联词汇的理解和反应理所当然的被反射为买入行为,从而推升股价。显然,“炒股”二字本身并不意味着个股所涉及公司当下或未来的经营业绩的上升,更与大盘的整体经营表现无关,因此由于热搜而触发的交易行为从而产生超额收益率的现象并不能用传统理性派金融学解释,可见可获得性偏差在其中的贡献。
 
       那么为什么在“炒股”成为热搜词的前20个交易日(T-20)或是后20个交易日(T+20),甚至是40个交易日(T+40)内我们仍然能从股市中获取较高的超额收益率呢?人类的有限注意力和惯性思维能够很好的解释该现象。首先,处于互联网高速发展时代的投资者们,同时作为人类社会的一员每天主动或被动的接触着市场乃至生活中不计其数的各类信息,根据有限注意力理论,信息是无限的而注意力是有限的。作为投资者,我们无法避免的丢失了对大部分信息的接收,而把有限的注意力放到容易被察觉或受自身关注的领域上去,关键词热搜显然在纷乱的信息市场中吸引人们更多的眼球,但对信息的丢失和滞后效应在人类大脑的运行机制下依然或多或少存在,加之追涨杀跌的惯性效应在中国股民中尤甚,由此在“炒股”成为热搜词之后的20/40日内,超额收益率的存在就非常合理了。中国股民基数大、热情高,“炒股”成为热搜词汇的频率在样本区间内一直处在高位,因此T-20时的超额收益可以理解为上一波热点的余温,即惯性效应的余热,同样是由可获得性偏差所致,而不代表沪深300指数已经被高估。
 
● 确认偏误Confirmation Bias
 
Confirmation bias, also called confirmatory bias, is the tendency to search for, interpret, favor, and recall information in a way that confirms one's preexisting beliefs or hypotheses.

       确认偏误:亦称为证实性偏差,具体指人们在面对繁复纷杂的信息时,经常下意识筛选出合乎自身逻辑或是利好于自身过往决策的信息进行采纳与分析,而下意识的过滤掉利空于原有认知的信息,从而产生认知偏误。在这种偏差下制定的决策往往是片面且武断的。在制定投资决策时,如果新信息不能完全反应投资标的的全貌,则投资者根据此类信息所做出的投资决定势必会陷入投资偏误的陷阱。
       首先,我们依然以热搜词“炒股”为例,我们依据常识将“炒股”划在中性词范畴,其代表的可能性往往是正向的(上涨)或是负向的(下跌)。换而言之,将基本面信息和做空限制等控制变量排除之后,当投资者看到“炒股”二字作为热搜出现时,应当在大样本下50%选择买入,50%选择卖空(抛平),从而不会对整个股市的超额收益率产生影响,而事实却恰恰与之相悖,股市的超额收益率有了显著的提升。其可能的解释之一便是确认偏误。即人们倾向于接受正向的,有利于自身的信息(例如涨停,翻红等),而下意识忽略负向的,利空于自身的信息(例如跌停,翻绿等),从而导致买入行为大幅度超越卖空(抛平)行为,从而股市产生了超额收益率。

       为了验证上述偏误的存在,我组对2011年以来“炒股”、“涨停”、“跌停”关键词搜索热度进行了相关系数分析,结果如下图所示。“炒股”与“涨停”关键词的相关性显著高于与“跌停”的相关性。
 
图10:“炒股”、“涨停”、“跌停”相关系数
       同时,通过对以“涨停”为被解释变量,“炒股”为解释变量的回归分析可以发现,“炒股”搜索显著提升了对“涨停”关键词的搜索热度。
 
图11:“炒股”“涨停”回归
 
       与“炒股”类似且更甚的是热搜词“茅台”对于其自身个股短期超额收益率的正向影响。在信息的正负向(利空或利好)未知的情况下,仅仅是依靠个股名称作为热搜词,“茅台”便能使其超额收益率大幅度提升,于T+1达到了最高的24.78%,且在惯性效应(可获得性偏差)的加持下在“茅台”成为热搜词后的T+20乃至T+40内仍然能获得15%以上的超额收益,足见确认偏误对于投资者决策的显著影响。
 
4.2 情绪偏差 Emotional bias
 
● 过度自信Overconfidence
 
The overconfidence effect is a well-established bias in which a person's subjective confidence in his or her judgements is reliably greater than the objective accuracy of those judgements.

       过度自信,顾名思义,指的是人们常常过高地估计自己在(决策等事件)中的成功概率(精确度)和过低估计自身决策离标准答案的方差,或过好地预期自己对于(客观情况)好坏的判断能力。
 
       提到过度自信,我们不得不提的一个概念就是控制错觉定律(Illusion of control【1】)。控制错觉定律与过度自信存在内生性联系。当投资者经历连续盈利时,他们往往会认为自己制定的量化交易策略发现了一些鲜为人知的交易机会,能够精确的洞悉并控制市场内在的运行规律,而忽略或过低预期了市场内的不可控风险,从而加大杠杆,不计代价的加仓交易,把自己暴露在巨大的交易风险中。而控制错觉定律又会反过来加大投资者过度自信的程度,使得交易者夸张的认为自己是市场中的“天选之子”,后果同样是将市场风险置若罔闻。而事实上,短期的连续盈利或连续亏损在单个案例中时有发生,若是将这类现象放置在大样本中进行回归分析,得出的数据并不显著,因此无论是过度自信还是控制错觉定律都是一种严重的非理性认知偏差。
 
图12:沪深300指数与“炒股”关键词热度绝对值趋势
 
       以“过度自信与控制错觉定律的内生性”与“他们对股市造成的影响”来解释“炒股”关键词和股市超额收益率的正相关性以及中国股民疯狂的“追涨杀跌”行为,尤为合适与合理。由上图我们不难看出“炒股”成为热搜关键词与中国以10年为周期的牛市在时间维度上有一定重合:即当牛市来临之时,炒股成为全民热点,而炒股热点导致股民炒股热情高涨,交易量显著增大,投机溢价大幅升高,从而产生了高水平的超额收益,牛市到来;与此同时牛市的到来反过来又掀起了全民炒股的热潮,进而将“炒股”二字推上了热搜。两者互相加成,加上过度自信的情绪偏差,使得追涨杀跌的交易模式在大多数被情绪支配的股民中被频繁启用,更是瞬间将股市推向了顶点。显然如此迅速的涨幅并不意味着市场价值有着与之相匹配的实际增长,因此非理性的狂欢之后,迎接投资者的往往是市场的大幅回撤和冗长的低迷期。用相同的理论来解释半导体热股“长电科技”在成为热搜之后的一年内市场表现令人失望(见下图)的现象也一样解释的通。需要注意的是:在以不同“个股”名称作为关键词进行数据分析时,并非每个关键词所得出的统计结果,都如“贵州茅台”与“长电科技”一样具备一定规律,因此建议在根据“关键词热搜”制定交易策略时,按个股实际情况具体分析,生搬硬套绝非明智之举。
 
图13:长电科技股价与“长电科技”关键词热度
 
● 从众效应Bandwagon Effect and Regret aversion
 
Regret aversion bias seeks to avoid the emotional pain of regret associated with poor decision making.
 
The bandwagon effect is a phenomenon whereby the rate of uptake of beliefs, ideas, fads and trends increases the more that they have already been adopted by others.
 
       从众效应:从众效应,也称之为羊群效应,指的是人们由于厌恶决策失败带来的痛苦情绪而在大多情况下选择与多数人采取一样的行为准则,思想约束或是决策行为,而热衷于随势而行的偏差。我们的祖先对此也有比较准确的成语表述:如人云亦云,随波逐流等。根本上是因为群体中存在一种“自我加强机制” (self-strengthening mechanism【2】),能产生群组极化 【3】。即若同一决策,在同质群体中被广为采纳,则组内成员会在潜意识被同化随即采取相同决策的可能性大大提高。

       由于投资者深知信息不对称在市场中的普遍存在,以及其对于投资决策和所带来的对收益率影响的深远性,大部分投资者会选择通过洞悉市场中各类其他投资者的交易行为来推测其所获取的精确信息,亦或过度依赖于信息噪音而做出类似他人决策的模仿行为。出现从众行为的根本原因不在于效仿者认为其所模仿对象私人信息的准确度,而单纯在于数量多寡,显然这种“从众”行为是非理性的。

       再次联系“茅台”数据分析结果,我们自然而然的想到:正如当年的CISCO(思科),“茅台”在国人眼中俨然已经成为了“牛股”,“坚挺”的代名词,一只出色的基金如果没有在贵州茅台上持有仓位似乎都配不上称为一只合格的基金,足可见从众效应(亦称羊群效应)在投资决策上能给起投资者带来多大的心理偏差。

       为了验证上述思考,我组分析了贵州茅台股价、“茅台”关键词搜索热度与茅台的股东户数和持股机构数量。结果显示,正如我们所推测的:股价和搜索热度的波动与股东数量尤其是机构股东数量高度相关。
 
图14:贵州茅台股价与股东数量
 
       可见,具有长期投资经验,经历过多年专业训练且具备坚实金融背景的职业基金经理人都无法幸免于从众效应对其心理产生的影响,更何况是广大A股股民呢?因此,我们不难理解为什么面对着如此夸张的市盈率,投资者们并没有对贵州茅台这只所谓的牛股望而却步,丝毫没有被有效市场假说所影响,反而纷纷加入持仓大军,以至于每当“茅台”出现在热搜之时,其股价都毫无悬念的由于新加入的多头大军而猛涨一番,潜移默化中为“贵州茅台的传说”添上浓墨重彩的一笔。
 
图15:贵州茅台股价与股东户数
 
People's actions can be totally independent of their own information and totally dependent on their observation of others' actions or words.
 
       事实上,从众效应与大脑的神经结构也高度相关,生理上的痛苦(real pain)和社会性的痛苦(social pain【4】)是源自于大脑的同一部位,即社会性的痛苦也能导致生理上的痛苦。简而言之,不随波逐流所带来的社会性痛苦能带来生理痛苦。因此人类会下意识的选择做出与大部分同类相同的决策来避免生理痛苦的对自身带来的伤害。

       简而言之,当人们都在搜索“炒股”而你注意到了这件事,却并没有在一级市场投资;当人们都在搜索“茅台”而你注意到了,却并没有持仓600519的时候,作为人类的你是会感受到社会性痛苦乃至生理痛苦的,为了避免痛苦的产生,你极有可能会为此入市炒股或是持仓贵州茅台,进而推升相应的超额收益率。
 

4.3 情绪影响决策
 
       人们通常会将某一特定情境下的情绪在潜意识中延展带入另一情景从而在与后者情境不匹配的情绪下做出错误的决策。这种非理性的带入行为被称之为附带情绪转移(carryover of incidental emotion)。比如“将工作中产生的情绪带入家庭生活”,这种非理性也常常反映在投资决策中。

       Johnson & Tversky 与Schwarz & Clore不约而同的于1983通过若干基于效价方法的实证研究得出,人们对风险的感知能力与做决策当下的情绪有着密切的联系(分别为基于阅读正面或负面新闻,和基于天气等自然因素)。值得注意的是,这一系列的结论都是建立在具备正面情绪的个体往往会做出偏向乐观的决策(忽略部分风险)的假设之上,反之沉浸于负面情绪的个体则倾向于做出悲观的决策(风险厌恶程度加剧)。之后于1995年Forgas又提出了“情绪倾注模型”来证明“情感的注入是一个连续体”,简而言之,个体所处情景的确定性越低,个体越容易产生附带情绪迁移,从而在我们分析的框架下影响投资决策。

       当然,不同的情绪(certainty, pleasantness, attentional activity, anticipated effort, individual control, others’ responsibility)给个体带来的投资决策影响也大相径庭。Lerner & Keltner 在其2000年的论文中比较了带恐惧情绪的个体和带有愤怒情绪的个体对于风险的感知与接受程度的不同,他们研究发现气质性前者更倾向于对未来做出悲观的预测,而后者则会坚持对将来做出乐观判断。

       对于这一现象的生物学解释来源于David Hume在腹正中前额皮质(vmPFC) 【5】功能缺失或受损的病者群体中所做的一项试验,试验结果表明这类病者在以下两个方面均存在不同程度的能力低下:a:感知情绪的能力;b:做出理性最优决策的能力。具体表现为,腹正中前额皮质功能受损或缺失的病者多次重复地选择风险较大的经济选项,而在其认知中这一选择并非最优选择。而根据皮电反应(galvanic skin response)【6】以观察到这类病患如此冒险行事源于他们不能正常地接收到由大脑传递出来的情绪信号,而正是这种“情绪信号”使得让普通正常人得以对高风险产生合理的恐惧。因此,从不同维度上去评估情绪对于投资决策的影响是十分有必要的。
 
 
       为了验证主观情绪是否能够,或能够在哪些维度,以何种形式影响投资者的投资决策,我们特意从“天气”,“日照”’,“气温”和“堵车”等一系列发生频次较高且显然能影响人类情绪的关键词着手,尝试用数据来验证不同情绪对于市场超额收益率的影响。

 
       我们发现情绪波动的强烈程度与市场超额收益率之间是存在一定相关性的。例如,一次“高质量”的堵车对当天以及接下来一段时间内的股指超额收益率都有较大的提升作用。对于“堵车”作为热搜关键词会伴随着股指超额收益率提升的可能原因如下:第一,“堵车”给个体带来的情绪属于愤怒情绪,正如上文所阐述,愤怒情绪往往使个体对未来做出乐观的判断,体现在投资者眼中,即对为来市场/个股走势的上涨预期,因此易使投资者进行买入操作。第二,堵车现象往往伴随着久坐,以及大量的碎片时间,车内人员(驾驶者不建议)有一定概率会利用碎片时间从各种移动设备上浏览或收听信息,加之上文提及的诸多非理性偏差,车内人员同样会有一定的概率进行买入操作。两点兼而有之,使得“堵车”关键词与股指超额收益率显著成为趋势,数据分析结果成立。
诚如上文所述,由于情绪的多种多样以及程度各异,其效果也随之有所区分。因此关于以热搜词汇引发情绪继而影响股市超额收益率的结果并非一定是正相关,还需具体词汇具体区分,不可妄作决断。
 
5. 投资策略
 
       基于前文中相关关键词对沪深300指数和个股收益率的发现和相应行为金融学解读,本组设计了以下投资策略,试图利用投资者的行为偏差获取超额收益。需要注意的是,以下策略描述不应构成具体投资建议,相关收益预测仅供学术研究讨论,仅为本组成员基于数据分析的研究发现设计的方案,投资者在具体的投资过程中仍应对相关证券的底层资产业绩水平和其他影响证券定价的因素进行审慎分析,结合策略设计和自身风险承担水平和意愿,自行或通过专业持证机构制定可行的交易执行方案。
 
5.1 基于市场情绪的指数策略
 
       构建对沪深300等指数有超额收益关联的关键词词库,如提示交易活跃度的“炒股”和影响投资者情绪的“堵车”等。通过程序持续监测关键词搜索热度走势并分组,当相关关键词热度分组处于预期收益率较高的组别时,提升A股权益类资产配置水平或买入相关指数挂钩产品,热度较低时则反之。

       以前文所述的“炒股”关键词为例,当“炒股”百度指数在近1年搜索热度指数前25%分位即被标记为1组时加仓,预期在1-40个交易日内获得年化25+%的超额收益率。

       具体方案为:
 
       对1000个可能影响交易活跃度和投资者情绪的关键词进行历史超额收益分析,分析在不同期限延迟下(T-20、T+0、T+1、T+20、T+40)对沪深300指数的影响,并加入了成交量作为控制变量,筛选出100个关键词,这些关键词在T+20和T+40后沪深300指数超额收益最大。

       通过程序实时监测这些关键词,当关键词热度在近1年搜索热度指数处于前25%分位时,买入含赎回条款的跟踪沪深300指数产品(比如指数基金、指数增强型收益凭证),当关键词热度在近1年搜索热度指数处于后25%分位时,立即对这些产品进行赎回。
 
5.2 基于个股热度的选股策略
 
       构建对个股有超额收益关联的关键词词库,如股票简称和所在行业关键词等。通过程序持续监测关键词搜索热度走势并分组,当相关关键词热度分组处于预期收益率较高的组别时提升买入相关个股,热度较低时则反之。

       以前文所述的“茅台”关键词为例,当“茅台”百度指数在近1年搜索热度指数前50%分位即被标记为1或2组时加仓,预期在1-40个交易日内获得年化4-24%的超额收益率。

       具体方案为:对在A股上市的所有公司中文简称(流通市值在50亿以上,不含ST及停牌股票)作为关键词进行历史超额收益分析,分析在不同期限延迟下(T-20、T+0、T+1、T+20、T+40)对其股价的影响,并加入了成交量作为控制变量,筛选出100个关键词,这些关键词在T+20和T+40后自身股价超额收益最大。

       通过程序实时监测这些关键词,当关键词热度在近1年搜索热度指数处于前25%分位时,买入这些股票,当关键词热度在近1年搜索热度指数处于后25%分位时,立即卖出这些股票。

5.3 基于多个因子组合策略

       考虑将上述两个策略叠加做成组合策略,以对收益进行强化。

       以“堵车”和“茅台”关键词为例,可通过程序将过去1年内的两个关键词热度进行50%分位归为A-D四类如下表所示:
 
表1:“堵车”和“茅台”关键词的组合策略
 
       我组使用2016年至今的数据,对“茅台”关键词单一策略和组合策略与贵州茅台个股超额收益率进行了计算,如下图所示。不难看出,通过使用组合策略可以强化前述单一策略收益。
 
图16:单一策略与组合策略的贵州茅台T+40个股收益率对比
 
       基于上述发现,我组进一步加入了“炒股”关键词热度数据,根据50%分位热度将2016年以来的交易日分为i-viii共八类,并对相关日期不同投资周期下贵州茅台个股超额收益率进行了计算,如下图所示。新因子的加入极大地强化了上述策略的收益,说明基于行为偏差的搜索热度指数参考值为提升相关个股的投资收益提供了重要的手段。
 
图17:三因子策略超额收益率
 
       具体方案为:对方案1的 100个关键词中超额收益最高的30个关键词、方案2的100个关键词中超额收益最高的30个关键词,进行组合分析(30*30=900种可能),通过程序实时监测这900个组合,当方案1和方案2的关键词在近1年搜索热度指数均处于前50%分位时,买入方案2关键词对应的股票,当方案1和方案2的关键词在近1年搜索热度指数均处于后50%分位时,卖出之前买入的方案2关键词对应的股票。
 
       受篇幅和时间限制,本文并未使用上述关键词对大量其他个股收益率进行预测,亦未通过构建相关关键词库降低同类别单一关键词的特异风险。因此,本组建议读者在理解本文所述策略的前提下针对所关注个股关键词进行具体数据的回测分析,确认相关关键词搜索热度和收益率的关系,并丰富词库以控制特异风险。
 
6. 相关策略在美股的运用
 
       根据本组在前文中对A股相关市场和搜索数据的分析和策略,本部分我们选取了“Stock”和“Tesla”关键词作为美股投资策略的研究和分析对象。以下内容基于网民在Google搜索引擎上的一段时间内搜索关键词热度的变化,由美国网民的“Stock”搜索数据反映公众对于美国股市的关注度,全球网民的“Tesla”搜索数据反映公众对特斯拉股票的关注。我们对关键词热点变化后的一段特定时间内特斯拉股价的表现进行关联分析,并简单测试了前述单因子和双因子策略。
 
6.1 基本面偏离情况
 
       我组首先根据公开市场交易和低频财务数据直观观测了美股基本面与股价的偏离情况。以下图为例,S&P500的指数收益率的波动在2018年以前基本与成分股净利润率增速的波动一致,尽管由于07-08年金融危机导致该期间净利润波动幅度远大于指数收益率波动幅度,但其波动仍基本同步。

图18:S&P500指数和成分股基本面情况对比

 
       我组利用同样的方法进一步分析了特斯拉个股表现与基本面的关系如下图所示:
 
图19:特斯拉个股收益率和基本面情况对比 
 
       作为一支明星个股,特斯拉股价在2014年之后的表现显然没有反应公司当前的基本面水平,基于前文的分析我组认为特斯拉股价除了体现了市场对公司未来现金流预期以外,仍可能包含了部分投资者情绪。
 
       从上述低频数据可直观推测,美股市场整体相对A股有效,价格基本反映了基本面情况。但在受关注度较高的个股层面,股价和当前基本面情况没有很强的关联性。
 
6.2 基于Google Trends搜索关键词热度的分析
 
       为了研究标普500指数的交易策略,我们首先参考“炒股”对A股指数收益率的影响,研究了美国网民的“Stock”关键词搜索热度对标普500指数收益率的影响。
 
图20:“Stock”关键词月度搜索热度与S&P500指数回归
 
       通过对不同时间延迟下的月度搜索热度和标普500指数进行回归分析发现,“Stock”关键词搜索热度与指数存在一定的关联,但整体关联度较低(调整R2仅为15%),基本符合6.1节的直观观测结果。

       在个股方面,特斯拉作为新能源汽车在全球范围内的领导者,其股价在2020年表现抢眼,从年初美股不到100美元,到年底涨至900美元,上涨超过800%。特斯拉联合创始人兼CEO Elon Musk被称为硅谷钢铁侠,是新晋硅谷明星,他同时还担任可回收火箭SpaceX公司的CEO,因此与特斯拉相关的关键词我们经过观察和分析选取了如下几个关键词:“Tesla”,“Elon Musk”,“Space X”进行分析。
 
图21:“Tesla”,“Elon Musk”,“Space X”关键词2020年搜索热度
 
       以上图为例,考虑美股大盘在2020年整体大幅上涨,特斯拉在2020年股价经历过数次大幅波动,有数十次当日涨跌幅在10-20%之间,我们尝试使用上述关键词找出关键词热度指数与股价是否连续上涨/下跌的联动相关性。由于“Elon Musk”和“Space X”关键词搜索热度数据较少,且参考前文对“茅台”及贵州茅台股票的分析,在本部分数据分析中我们采用了特斯拉公司2010年上市以来的股价和“Tesla”关键词的月度Google Trends搜索热度指数进行了分析,回归分析结果如下图所示。
 
图22:“Tesla”关键词搜索热度与股价回归分析
 
       由此可见,特斯拉个股股价与其公司名称关键词搜索热度指数有较强的正相关关系,前述A股中对“茅台”的种种偏误似乎在美股中也存在一定的应用。
 
6.3 基于Google Trends搜索关键词热度的美股投资策略
 
       我组根据类似第5节对A股的投资策略,分别针对市场情绪和个股热度对相关搜索热度进行了动态分组并测试了投资策略回报如以下几张图表所示:
 
图23:基于市场情绪的指数投资策略超额回报
 
图24:基于个股热度的选股策略超额回报
 
表2:“Stock”和“Tesla”关键词的组合策略

 
图25:基于双因子的投资策略超额回报
 
       经过我组的测试发现,上述通过动态分组选股策略可以在美股的指数投资和个股选择方面实现较高的超额回报。如前文所述,具体的交易执行过程中需要对策略所用关键词库进行补充并回测分析,以上投资策略不构成投资建议。
 
7. 总结
 
       实证研究表明,中国的资本市场仍处于发展时期,市场表现和企业基本面在一定时间内关联性较弱,通过行为金融学理论我们发现,可获得性偏差可能导致“炒股”成为热搜词后市场指数上升,从众效应可能导致“茅台”成为热搜词后推升其股价,“堵车”等带来的情绪波动可能间接影响市场表现。因此,通过对中国资本市场的市场指数、个股两个维度产生超额收益进行分析,构建关键词词库并实时监控其搜索热度,在此基础上,我组设计了三个量化投资策略:1.基于市场情绪的指数策略:筛选出100个关键词(这些关键词在T+20和T+40后沪深300指数超额收益最大),通过程序持续监测,当关键词热度在近1年搜索热度指数处于前25%分位时,买入含赎回条款的跟踪沪深300指数产品,热度较低时赎回;2.基于个股热度的选股策略:筛选出100个关键词(这些个股中文简称在T+20和T+40后自身股价超额收益最大),通过程序持续监测,当关键词热度在近1年搜索热度指数处于前25%分位时,买入这些股票,热度较低时卖出;3.基于多个因子组合策略:即考虑将上述两个策略叠加做成组合策略对收益进行增强。我们同时利用上述分析方法和策略对美股市场进行了测试,发现尽管美股整体成熟度和有效性较高,上述策略仍有一定的应用空间。

 



[1] Illusion of control is the tendency for human beings to believe they can control or at least influence outcomes that they demonstrably have no influence over.
[2]自我加强机制:路径依赖又译路线依赖性,它的特定含义是指人类社会中的技术演进或制度变迁均有类似于...阿瑟创造性地发展了保罗·大卫的这个思想,并系统地阐发了技术演进过程中自我强化机制和路径依赖性质的观点(1988)。
[3]群体极化(Group Polarization)最早是由美国麻省理工学院Stoner James Arthur Finch(斯通纳·詹姆斯·芬奇)于1961年提出的,他通过实验研究发现:在群体决策情境中,个体的意见或决定,往往会因为群体间彼此相互讨论的影响,而产生群体一致性的结果。群体极化作为一个社会学概念,与心理学和金融市场上常见的“羊群效应”(从众效应)以及信息学上讲的“信息级联”均有一定的联系。
[4] Social Pain社会性痛苦:与亲密的他人或社会群体产生实际的或潜在的心理距离而产生的痛苦体验(Eisenberger)
[5]腹内侧前额叶皮层位于大脑前端,眼睛的正上方,大小与一个垒球接近。它是控制一系列情绪和行为(例如冲动行为和计划不周)大脑部位的组成部分。
[6]皮电反应(galvanic skin response),又称“皮肤电反应”、“皮电属性”,是一项情绪生理指标。它代表机体受到刺激时皮肤电传导的变化,一般用电阻值及其对数或电导及其平方根表示。皮肤电反应只能作为交感神经系统功能的直接指标,也可以作为脑唤醒、警觉水平的间接指标,但无法辨明情绪反应的性质和内容。由费利和塔察诺夫发现。

 

参考文献
 
1. The VLPFC versus the DLPFC in Downregulating Social Pain Using Reappraisal and Distraction Strategies Jun Zhao, Licheng Mo, Rong Bi, Zhenhong He, Yuming Chen, Feng Xu, Hui Xie and Dandan Zhang Journal of Neuroscience 21 December 2020, 41 (6) 1331-1339; DOI: https://doi.org/10.1523/JNEUROSCI.1906-20.2020
2. "The Illusion of Control," Journal of Personality and Social Psychology (32:2), 1975, pp. 311-328. Langer, E. J. and Roth, J.  Behavioral Finance and Wealth Management: How to Build Investment Strategies That Account for Investor Biases 02 January 2012 https://doi.org/10.1002/9781119202400.ch22
3. JohnsonEJ,TverskyA.,1983,Affect,Generalization,andthePerceptionofRisk[J].JPSP,45:20~31.Labouvie-Vief,G.,Hakim-Larson,J.,Hobart,C.J.1987.Age,EgoLevel,andtheLife-spanDevelopmentofCopingandDefenseProcesses[J].Psychology and Aging, 2, 286-293.
4. Schwarz, N., & Clore, G. L. (1983). Mood, misattribution, and judgments of well-being: Informative and directive functions of affective states. Journal of Personality and Social Psychology, 45, 513.
Lerner, J. S., & Keltner, D. (2000). Beyond Valence: Toward a Model of Emotion-Specific Influences on Judgement and Choice. Cognition & Emotion, 14, 473-493.http://dx.doi.org/10.1080/026999300402763
5. Barber, B. M. and T. Odean (2008). All that glitters: the effect of attention and news on the buying behavior of individual and institutional investors. Review of Financial Studies, Vol. 21(2), 785 – 818.
6. Baron, J. and J. C. Hershey (1988). Outcome bias in decision evaluation. Journal of Personality and Social Psychology, Vol. 54(4), 569 – 579.
7. Hastorf, A. H. and H. Cantril (1954). They saw a game: a case study. Journal of Abnormal and Social Psychology, Vol. 49, 129 – 134.
8. Kahneman, D., B. L. Fredrickson, C. A. Schreiber, and D. A. Redelmeier (1993). When more pain is preferred to less: adding a better end. Psychological Science, Vol. 4(6), 401 – 405.
9. Kahneman, D. and A. Tversky (1979). Prospect Theory: An Analysis of Decision under Risk. Econometrica, Vol. 47(2), 263 – 291.
10. Lee, B., J. O’Brien, and K. Sivaramakrishnan (2008). An analysis of financial analysts’ optimism in long-term growth forecasts. Journal of Behavioral Finance, Vol. 9(3), 171 – 184.
11. Redelmeier, D. A. and D. Kahneman (1996). Patients’ memories of painful medical treatments: real-time and retrospective evaluations of two minimally invasive procedures. Pain, Vol. 66(1), 3 – 8.
12. Tversky, A. and D. Kahneman (1973). Availability: a heuristic for judging frequency and probability. Cognitive Psychology, Vol. 5(2), 207 – 232.
13. Tversky, A. and D. Kahneman (1974). Judgment under uncertainty: heuristics and biases. Science, Vol. 185(4157), 1124 – 1131.
14. Tversky, A. and D. Kahneman (1981). The faming of decisions and the psychology of choice. Science, Vol. 211(4481), 453 – 458.
 
本文系学生个人观点,不代表清华大学五道口金融学院及金融MBA教育中心立场,转载请联系作者授权。

近期活动