南风金融网 - 中原最权威行情财经门户

热门关键词:  xxx  www.ymwears.cn  缪学刚    
热门: 【每日函】2019年12月3日上 姚洋:亟待反思去杠杆 【东方花旗每日债市信息122 需求稳+基数低,外贸大幅回 关注2020年监管动态——关 从推特理解“涨跌还看特朗

从推特理解“涨跌还看特朗普” ——另类视角看资产配置之一

来源:南风金融网 作者:南风金融网 人气: 发布时间:2020-01-17 15:22:13

来源:华泰固收强债论坛

作者:张继强、张健


摘? ?要


核心观点

我们使用特朗普自2017年以来发送的推特,通过分析对应时间上海金价波动率、结合机器学习算法进行文本分析两种方式,构造了两个“推特波动率”,并用于观察市场短期情绪及判断黄金走势。总体而言,我们构造的两个“推特波动率”都与黄金价格显现出了较高的相关性,这与“推特波动率”实际是政策不确定性的影子指标这一本质密切相关,背后有“市场反应强度变化→市场预期不确定性变化→避险资产价格变化”的完整逻辑链条支撑。短期情绪面上,市场风险偏好有一定改善迹象,但从中长期逻辑而言,我们对黄金仍偏乐观。


数据概览:近万条推特给出的“用户画像”

我们的数据源为2017年1月1日-2020年1月7日期间,特朗普合计发布的8887条原创推特。从日均发送条数来看,自入主白宫以来,特朗普在推特上的活跃度逐渐提升。从“喜欢”与转推数来看,特朗普在网民中的支持率总体稳定,近期有所回升。从用词来看,特朗普推特“词库”相对直接,“直来直去”的消息发布往往包含贸易、货币政策、地缘政治等方面的关键词,进而扰动市场情绪。此外,2019年下半年以来,特朗普使用较敏感关键词的频率明显上升,给市场带来了较多扰动。


小试牛刀:怎样量化评估推特的“影响力”?

我们从受特朗普推特影响大、影响因素少、交易时间长等标准出发,挑选上海金展开分析。我们计算推特发送前后各5分钟上海金价变化的波动率,并用此构造“推特实际波动率”,来衡量推特“影响力”的大小。发现上海金价与这一指标相关性较高,背后还有完整逻辑支撑:“推特波动率”较高→市场对特朗普所发推特反应较剧烈→市场认为政策不确定性有所上升→黄金走势偏强,故对近期二者的背离也应加以关注。


更进一步:文本分析+机器学习=更具一般性的“推特波动率”

按对应10分钟波动率大小划分出的两个子样本在统计上与内容上有明显差异,从侧面验证了这一划分方式有一定合理性。故我们从内容出发,使用推特文本提取重要关键词+使用随机森林算法分类的方式,对样本中的所有推特构造“推特隐含波动率”,以充分利用数据源,并部分消除“自已验证自己”的嫌疑。“推特隐含波动率”与上海金价同样具有一定相关性,这与“推特实际波动率”的观察结果基本一致,但二者又有单位与波动性上的区别。“推特隐含波动率”与金价的分化可能反映市场主题由贸易、货币政策切换为美伊等地缘冲突,但仍需重点关注。


因子浅析:“推特波动率”实际是政策不确定性的影子指标

度量“不确定性”,一直是资产配置中的重要话题。近年来,使用文本分析的方法度量政策不确定性逐渐走上前台,政策不确定性指数就是重要一例。而对比“推特波动率”与近年来市场常用的政策不确定性指数,可发现二者有一定交叉验证的关系,这无疑同时增加了二者的可信度。


市场启示:“推特波动率”下降→风险偏好回升or交易主题切换?

近期两个“推特波动率”都出现下降,表明上海金市场对特朗普推特表态略有“脱敏”,同时特朗普近期谈及敏感问题的次数有所降低。前者指向风险偏好回升,而后者指向交易主题切换,应注意应对方式的差异。但无论如何,“推特波动率”都提供了一个观察市场短期情绪的良好工具,需要将其与长期逻辑结合起来,短期看,市场风险偏好已有好转迹象,但从中长期逻辑而言,我们对黄金仍维持偏乐观的判断。


风险提示:推特数据有局限性,模型设定偏误,交易主题或推特内容改变



研究背景:怎样定量理解“涨跌还看特朗普”?

从2016年特朗普当选美国总统以来,全球大类资产表现出现了新的影响因子:2017年初是以“再通胀”为主题的“特朗普交易”,2018-2019年是美国与全球各国的贸易摩擦,以及在特朗普施压及贸易、政治等多重不确定性下的美联储转松,都给股、债、商品等各类资产的表现造成了明显影响。


大量使用推特表达观点甚至发布政策,是特朗普有别于传统西方政客的一大特点,2018年以来,“贸易”与“货币政策”是他的“主要战场”。早在选举阶段,特朗普就通过使用推特强化个人标签,以区分于主要依赖传统媒体的“建制派”政客,而自当选乃至上任以来,特朗普推特的关注者更是大幅增加。同时,由于大量重磅政策以推特作为“首发渠道”,给市场短期情绪和长期预期都造成了明显影响,特朗普也获得了“推特治国”的“雅称”。而2018年以来,贸易摩擦的多轮反复背后都有推特的影子,而每次全球各主要央行货币政策会议结束后,特朗普也常常会在推特上评论一番,以施压美联储放松货币政策。



本文希望通过尝试处理“特朗普推特”这一典型的“非结构化数据”,来分析这一“不走寻常路”的资产表现影响因子。在计算机科学中,“非结构化数据”是指数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等,“推特”显然也在这一范畴内。当前,在国内外投资管理实践中,作为常规统计/市场数据之外的有益补充,包括卫星照片、电商价格等在内的“非结构化数据”已经逐渐开始受到业界的关注。本文希望通过尝试对“特朗普的推特”进行建模,为量化分析这一“非常规”资产表现影响因子提供一些帮助。


我们在下文中将尝试解决如下问题:

1、怎样分析特朗普的推特,尤其是如何量化其对市场的影响?

2、怎样通过这一数据来源构造交易指标?

3、这样构造的交易指标与常规指标是否兼容,有无其他可扩展的方向?


数据概览:近万条推特给出的“用户画像”

自入主白宫以来,特朗普在推特上的活跃度逐渐提升。我们的数据源为2017年1月1日-2020年1月7日期间,特朗普合计发布的8887条原创推特 (下称“样本”)。4周移动日平均推特条数从上任之初的不到10条,逐渐攀升至2019年10月中美贸易摩擦持续反复时的接近每天20条,加上特朗普超过7000万的推特关注者数量,作为“顶流”可谓“当之无愧”。



从网民互动看特朗普支持率

从“喜欢”与转推数来看,特朗普在网民中的支持率总体稳定,近期有所回升。在某种意义上,关注者与特朗普推特的互动,尤其是“喜欢”与转推操作,可用于部分代表网民(包括美国及全球网民)对特朗普观点的态度。我们统计样本中每条推特的“喜欢”与转推数,按4周移动平均数来看,总体而言二者走势基本相似,且都保持相对稳定,且自12月以来,二者均有所回升,可能与中美贸易摩擦出现缓和有关。进一步对比“喜欢”数与网上公开的民调支持率,发现二者自2018年以来总体呈正相关(相关系数约0.37),故从网民与特朗普推特的互动来看,特朗普在大众中的支持率也处于“稳中有升”的态势中。



特朗普的“推特词库”近期发威了么?

从用词来看,特朗普推特“词库”相对直接,“直来直去”的消息发布往往包含贸易、货币政策、地缘政治等方面的关键词,进而扰动市场情绪。观察特朗普推特的用词,不难发现其“快人快语”的特点,用词简单、直接,符合其“反建制”、“接地气”的“人设”。而贸易(China、deal、trade、tariff…)、货币政策(dollar、money、fed…)、地缘政治(military、border…)等则是样本中的高频词。简单用词+重磅话题,特朗普的政见与政策变化得以快速向市场传播,进而扰动市场情绪,带来波动。



另一方面,2019年下半年以来,特朗普使用“敏感词”的频率明显上升。简单观察词频,可以发现特朗普谈及贸易与货币政策两大主题明显较多,而分别以{deal、china、trade、tariff}和{dollar、economy、federal reserve、fed}两组关键词来识别贸易问题与货币政策的相关推特,不难发现自2018年中以来,二者的出现频次均随特朗普推特的活跃度上升而整体提升,2019年中以来尤其如此。



从特朗普在推特上的活动时间来看,也存在一定周期性。2017-2019年间,19:00-22:00(北京时间(GMT+8),下同)发送的原创推特共计2441条,在样本中的占比超过1/4,明显高于其他时段,其中20:00-21:00间的发送数约为其他“常规时间”的两倍,这也是全天中较为难得的亚洲、欧洲、美国时区都“醒着”的时段,有利于市场行情快速反应。而13:00-18:00则只有165条,在样本中占比不到2%,或对应了特朗普的休息时间。



综上所述,我们从近10000条推特中完成了特朗普的初步“用户画像”:精力充沛、用词直白、在网民中支持率尚可的“顶流”。这有助于从一个新的角度理解现状,但我们显然不希望止步于此:对于这一资产表现的重要影响因子,需要进一步揭示其与市场的关联。


小试牛刀:怎样量化评估推特的“影响力”?

尝试定量评估推特的影响力,需要挑选一个合适的资产类别。如前述,我们通过获取特朗普推特内容,并进行简单的数据整理与文本分析,得到了“用户画像”。但从市场研究角度,我们需要挑选出合适的资产类别,并将其与纳入对推特数据的研究框架中,一个较好的资产类别需要满足如下3个条件:

1、受特朗普推特行为影响大。相关性较小的资产不适合用于评估推特的“影响力”;

2、重要的影响因素相对较少。反之,若资产价格影响因素较复杂,则不利于独立分析推特的作用大小;

3、交易时间相对较长。如前述,特朗普推特的发送时间可能在全天24小时中的任意时刻,相对较长的交易时间有利于覆盖更多的样本,便于分析。


综合上述考虑,我们选择上海金价(AU.SHF)展开分析。特朗普的政策调整往往显著影响风险偏好,而这是影响短期黄金价格走势的重要因子。在这一因素外,影响黄金价格走势的还剩下实际利率、美元汇率与人民币汇率等。诚然,汇率也是短期内可能受到事件影响产生较大波动的变量,特别对于有关中美贸易摩擦的推特,避险情绪上升与人民币走弱可能产生共振。但好在这两类冲击对上海金价的影响基本同向,仍不影响我们以半定量的方式给出分析结果。最后,上海金有日盘与夜盘,覆盖的时间范围较广。



我们计算样本中推特发送前后各5分钟上海金价变化的波动率(下称“10分钟波动率”),并用此衡量推特“影响力”的大小首先,从推特是造成市场情绪波动的重要触发剂这一逻辑出发,波动率是其“影响力”较好的代理指标;其次,波动率不带方向,对样本中的多空两方面因素均适用;最后,选用总计10分钟的时间窗口,既可以避免纳入过多与“发送推特”这一事件无关的变化,又考虑到了市场消化的时间及可能的延迟影响。


计算10分钟波动率,并采用“2倍标准差法”设定推特“影响力”大小分界线为0.05%。剔除节假日与非交易时段后,以此方法可计算出2581条推特对应的10分钟波动率,其均值与标准差分别约为0.021%与0.014%。若视2倍标准差之外数据为异常值,则“影响力”分界线约为0.05%左右(对应日度波动率约为1.2%),10分钟波动率在这一水平上的推特共有91条,在全部2581条推特中占比约3.5%。简便起见,下文中我们将这91条称为“大影响子样本”,剩余称为“小影响子样本”,分别简称为“大”和“小”。



样本中约三成推特可计算出对应的10分钟波动率,在统计上也具有一定代表性。一方面,有10分钟波动率的2581条推特虽然只占样本总数的约30%,但在样本期中的日期分布较为均匀;另一方面,其10分钟波动率均值0.021%对应日度波动率约为0.50%,与样本同期(2017年1月1日-2020年1月7日)直接使用日度价格变化计算的波动率约0.48%相差不多。可认为样本作为整体,与其他时间段的波动性相差不大,有一定代表性。



定义每天的“推特实际波动率”为4周以来每天的最大10分钟波动率的移动平均值,这样一方面突出了“影响力”最大的推特的作用(体现了在波动率方面的“极端思维”),另一方面也采用移动平均的形式对结果进行了一些平滑,并构造类似“月环比”的指标。即:

“推特实际波动率”与上海金价有一定相关性,实际上反映的正是“不确定性”的影响。简单比较“推特实际波动率”与上海金价走势,不难发现自2017年以来二者有明显的正相关性(相关系数0.89,即使剔除2019年7月以来二者大幅上行的部分,相关系数也有0.51)。从直觉上很好解释这一现象:“推特实际波动率”较高→市场对特朗普所发推特反应较剧烈→市场认为政策不确定性有所上升→黄金走势偏强。



近期金价与“推特实际波动率”似有背离,值得关注。自去年11月以来,“推特实际波动率”明显下行,但上海金价小幅回落后又快速冲高。其中去年12月下半月的上涨主要可归结于美国经济数据不佳、美债收益率下行及年末全球央行购金的资金流等方面,而今年以来的上涨则主要来自美伊局势冲击,1月的季节性效应也有一定贡献(参见2020年1月5日报告《“美林时钟”可能加速》)。金价与“推特实际波动率”的背离一方面反映近期主导黄金行情的并非特朗普的政策发布,但另一方面也表示目前在推特上,特朗普对美伊局势的表态相对克制,未引起市场的大幅波动,值得继续关注这一指标释放的信号。


更进一步:文本分析+机器学习=更具一般性的“推特波动率”

按对应10分钟波动率划分出的子样本在统计上与内容上有明显差异,从侧面验证了这一划分方式有一定合理性。原理上说,我们划分子样本(“大”vs“小”)的标准是上海金价的10分钟波动率,而我们随后又使用“推特实际波动率”作为市场情绪的短期信号,来对金价走势进行验证,可能存在“自己验证自己”的嫌疑。但对两个子样本稍加统计分析,我们不难发现二者在“支持率”与“用词”上存在明显差别,从侧面证明了这一划分方式并非完全是基于10分钟波动率的“数据挖掘”。


按季度统计两个子样本中的推特“喜欢”与转推数的均值 ,可以看出自2017年以来“大”相对“小”的互动数2018年高、2019年低但逐渐回升,始终存在一定差异,极端时点如2018Q4、2019Q1等还与样本整体的互动数吻合,说明两个样本的区别确实存在。进一步分析用词,以某词出现的次数/子样本总词数计算词频,作差可得两个子样本用词差异,“中国”是毫无疑问的“关键词”,而还有大量子样本“大”中的高频词从字面上看就与政策高度相关,更加验证了子样本划分有一定合理性。



我们希望将“推特波动率”指标推广到整个样本,以充分利用数据源,并部分消除“自已验证自己”的嫌疑。如前述,我们通过直接对每天最大的10分钟波动率求4周移动平均,得到了“推特实际波动率”,相比近9000条的样本推特总条数而言,这一计算方法只用到了约30%,存在较大的信息损失。同时,虽然我们从互动数与词频两方面为洗清“自己验证自己”的嫌疑进行了解释,但从更接近数据本质的角度来构造指标仍有其必要性。因此,我们尝试使用一些类似文本分析的方法,提取推特文本中的特征并建模,来构造更具一般性的“推特波动率”。


方法简述:关键词提取+随机森林建模

简洁起见,我们选择“是否出现某些关键词”作为推特文本的特征。如前述,“大”和“小”两个子样本词频差异较大的词往往与政策高度相关,是一个不错的出发点。我们从词频差超过0.2%的全部36个词中,按主题特征、情绪强度挑选了19个,分别判断它们在样本中的每一条推特里是否出现,有则记1(重复也只记1),无则记0,这样每一条推特都可以精炼为一个(1×19)的向量。将问题转化为:给定样本中任意一条推特文本提取出的向量,判定其属于“大”/“小”两个子样本的概率。



对于化归后的分类问题,可借用统计学习中的分类算法尝试解决。经过特征提取,我们将样本转换成了8887个(1×19)的向量,而原有的“大”、“小”两个子样本分类明确,需要推广到无对应10分钟波动率的子样本。统计学习(机器学习的一个分支)中的分类算法即可满足此类需求:先使用已经划分好类别(或称“打好标签”)的子样本对模型进行训练、测试,再用训练好的模型对整个样本进行分类。


常用的分类算法中,随机森林算法具有实现简便、无需预先确定特征重要性、泛化能力较强等优点,我们采用这一算法。常用的分类算法很多,包括对数几率回归(logistic回归)、朴素贝叶斯、支持向量机(SVM)、k近邻(kNN)、随机森林等,其中随机森林在大量学界与业界应用中表现较好,故我们先尝试使用这一算法构造指标。本文只简单介绍算法原理,并在后续应用中,使用“结果可解释性”替代相对较为繁琐的模型评判过程。


随机森林本质上是生成一定数量随机生成的决策树,根据生成的所有决策树判断的结果“投票”得出某一条推特的分类。我们在本次应用中使用的决策树就是一个二分类器:根据提取出的文本是否含有某些关键词,将文本分类到“大”或“小”。如下图表16,一种可能的决策树分类形式是依次按照推特文本是否含有china、tariff、fed、dollar等关键词,逐步将样本一分为二,直到各子样本内部分类基本一致。而随机森林即是在此基础上随机挑选特征(并非每次都用到完全一致的特征),如下图表17,我们可以对每一条推特使用N个随机生成的决策树进行分类,并汇总其投票结果,以此将推特波动率推广至整个样本。



指标设计:仿照“推特实际波动率”进行推广

与“推特实际波动率”的构造方法类似,定义每天的“推特隐含波动率”为每天全部推特被划入子样本“大”的概率的最大值,同样做4周移动平均:

“推特隐含波动率”与上海金价同样具有一定相关性,这与“推特实际波动率”的观察结果基本一致,但二者又有一些区别。简单对比“推特隐含波动率”与上海金价,发现二者也有明显的正相关性(相关系数0.68,剔除2019年7月以来为0.47),这一结论与“推特实际波动率”基本一致,同样可以从政策不确定性对情绪影响的角度进行解释。而进一步对比两个“推特波动率”之间的区别,不难发现二者走势基本类似,但单位不同(从定义上,“推特隐含波动率”应该称作“波动概率”更合适),同时,由于“推特隐含波动率”是对文本建模,对关键词更为敏感,其波动性较“推特实际波动率”更大。



“推特隐含波动率”与金价的分化可能反映市场主题由贸易、货币政策切换为美伊等地缘冲突,但仍需重点关注。由“推特隐含波动率”的构造方法不难看出这一指标非常依赖关键词选择,而关键词选择又依赖于“大”、“小”两个子样本的词频差异,背后反映的其实是特朗普在推特中对贸易、货币政策等的评述要么出现频率逐渐下降,要么给市场造成的波动越来越少。再考虑到近期如美伊冲突等热点问题,实际上可能是主题切换:特朗普推特中的美伊冲突尚未给市场带来剧烈波动的表现(否则美伊关键词就会被加入随机森林建模),但特朗普推特上的表态尚不激烈,本身也是一个值得关注的信号。


因子浅析:“推特波动率”实际是政策不确定性的影子指标

度量“不确定性”,一直是资产配置中的重要话题。在分析市场和讨论资产配置时,我们经常会进行有关“不确定性”的表述,这一因子与风险偏好等密切相关,进而与黄金、发达国家主权债、股票等大类资产及诸如发达市场/新兴市场股债估值差异、股市周期/防御风格等细分相对价值策略等都产生重要联系。但如何使用统一的标准量化这一因子,一直是学界乃至业界关注的问题。


近年来,使用文本分析的方法度量政策不确定性逐渐走上前台,政策不确定性指数就是重要一例。传统方法往往采用市场波动率等实现,如VIX、各类利率衍生品隐含波动率等,但也难免有“自己验证自己”之嫌,故近年来使用文本分析等与市场数据相关度较低的方法开始进入研究人员的视野。在Baker、Bloom和Davis于2015年公开的论文《Measuring Economic Policy Uncertainty》中,作者使用10家美国权威报刊,统计同时包含economy、policy、uncertainty这3个关键词及其变体形式的文章出现的频次,并对其进行频率计算和标准化处理,构造了1985年以来的美国政策不确定性指数。经过观察不难看出,政策不确定性指数与重大政治事件基本吻合。



对比“推特波动率”与政策不确定性指数,可发现二者有一定交叉验证的关系,这无疑同时增加了二者的可信度。对比我们在本次研究中尝试构建的两个“推特波动率”指标和政策不确定性指数,2017年以来相关系数均在0.4左右,特别是2019年以来相关性明显提升,“推特隐含波动率”与政策不确定性相关性更强,特别是考虑到数据源与构造方法的差异,“推特波动率”基本坐实了政策不确定性指数的影子指标,具有一定可信度。



市场启示:“推特波动率”下降→风险偏好回升or主题切换?

近期两个“推特波动率”都出现下降,背后缘由值得反思。如前图表19所示,自2019年9月以来,两个“推特波动率”都出现了明显下降,虽然近期有所回升,但也远未达到此前高点。从构造方式出发,“推特实际波动率”表征上海金市场对特朗普推特的反应,而“推特隐含波动率”表征敏感关键词在推特中出现的频率。二者均下降,表明上海金市场对特朗普推特表态近期略有“脱敏”,同时特朗普近期谈及贸易与货币政策等问题的次数有所降低。前者指向风险偏好回升,而后者指向交易主题切换,应对方式会略有不同。


“推特波动率”是一个观察市场短期情绪的良好工具。如前述,“推特波动率”实际上是政策不确定性的影子指标,自然也与市场短期情绪密切相关,简单与VIX作对比可以发现也有一定相关性,说明我们确实可以由此观察市场短期情绪。黄金价格自1月9日以来持续回调,贸易摩擦缓和、美伊冲突未升级、美国取消中国“汇率操纵国”认定等事件都起到了重要作用,但其实从“推特波动率”未明显上升也可以初窥端倪。



但不应将短期情绪与长期逻辑混淆,注意各类逻辑的适用范围与“持仓期”。我们在本文中构造了“推特波动率”指数,但作为观察市场短期情绪的指标,使用这一指标构造策略的“持仓期”相对较短。以黄金为例,中长期分析框架仍应归结到商品属性(工业用途、供需)与货币属性(央行行为、实际利率、美元计价因素)等方面上来,使用这一指标时应更加谨慎,并留心观察“推特波动率”下降背后是否隐藏了此前未纳入模型考虑的新风险事件。短期看,在没有爆发更重大外部风险事件的假设下,市场风险偏好已有好转迹象,但从中长期逻辑而言,我们对黄金仍维持偏乐观的判断。


风险提示

1、推特数据有局限性。我们尝试挖掘推特文本与资产价格之间的关联,也在一定程度上确认了推特文本和政策不确定性、市场情绪等的交叉验证关系。但资产价格本身影响因素繁多,短期情绪只是其中一个侧面,而推特数据又是短期情绪的一个认知角度,具有一定局限性,不应夸大其影响;

2、模型设定偏误。本文在数据获取与处理方式上有别于一般的计量分析方法,机器学习算法对参数设定也较为敏感,虽然我们尽力尝试提高模型的直观性和可解释性,但仍可能有模型设定偏误出现。如果推特数据与资产价格关联不成立,则正文给出的“黄金价格短期或偏弱”的判断可能不成立,此时应将“推特波动率”作为市场短期情绪的观察指标,只当作投资决策时的量化参考而非完全的交易信号来使用;

3、交易主题或推特内容改变。“推特波动率”在构造时主要使用已验证的词频较高的关键词进行分析,可能对新出现的交易主题或关键词的反应不够及时。


本材料所载观点源自01月15日发布的研报《从推特理解“涨跌还看特朗普”——另类视角看资产配置之一》,对本材料的完整理解请以上述研报为准

END


责任编辑:南风金融网

最火资讯

首页 | 财经资讯 | 金融理财 | 价格行情

Copyright © 2012-2015 南风金融网门户站 版权所有 Power by DedeCms 豫ICP备12016580号  技术支持:南风金融网

电脑版 | 移动版