南风金融网 - 中原最权威行情财经门户

热门关键词:  xxx  www.ymwears.cn  缪学刚    
热门: 对付勒索软件的利器:二级 还在为云存储掏冤枉钱?那 【MLinEcon文献推送1】文本 帮助你预防灾难的10款免费 利用Intel傲腾存储制定更智 【MLinEcon文献推送3】新闻

【MLinEcon文献推送1】文本中的中国股市情绪

来源:南风金融网 作者:南风金融网 人气: 发布时间:2019-11-30 11:41:42

图片来源:

http://guba.eastmoney.com/

原文信息
Li, Jia and Chen, Yun and Shen, Yan and Wang, Jingyi and Huang, Zhuo, Measuring China's Stock Market Sentiment (April 20, 2019). Available at SSRN: https://ssrn.com/abstract=3377684?or?http://dx.doi.org/10.2139/ssrn.3377684



一、导言


衡量投资者的情绪和分歧,并量化其对市场活动的影响,是相关经验文献的核心(Baker and Wurgler (2007))。这篇论文使用独特的数据集对中国股市中的投资者情绪进行了测量,该数据集由中国东方财富股吧上发布的6000万条帖子组成。依靠计算语言学的最新工具,文章提取这些帖子的文本情感,并使用它们在每个时期内的平均值和离散度来分别衡量相应的市场水平的情感和分歧。这些文字措施使文章能够在统一的中国股市经验框架下对理论文献检验一系列假设。Shiller(2017)在美国经济协会第129届年会的主席讲话中表示:“随着研究方法的发展,以及越来越多的社交媒体数据,文本分析将在未来几年成为经济学的一个更强大领域。

衡量投资者情绪的方法有很多,例如基于市场指标:Baker and Wurgler’s (2006) 投资者信心指数;基于调查数据:密歇根大学消费者信心指数,UBS/GALLUP的投资者乐观指数;基于文本数据:Yahoo!、newspapers、10-K reports、Google search records。

这篇论文构建了一个独特的,庞大的文本数据集,由6000万条帖子(或66亿个汉字)组成,这些帖子在2008年至2018年的10年样本期内在中国东方财富股吧上发布。文章手动构建了一个词典,手动标记了40,000条帖子的子集,用于训练基于机器学习的文本分析方法。

文章使用传统的字典法、支持向量机(SVM)和卷积神经网络(CNN)。同时应用word2vec词嵌入模型对原始词向量进行了降维。文章将基于字典,SVM和CNN的情感指数平均为单独的情感指数,称为中国投资者情感指数(CISI)。

文章使用文本情感和分歧度来测试来自经典行为资产定价的一系列预测关于股价对投资者情绪的定价错误,反应不足,反应过度,过度波动和交易量的模型。


二、数据


为了构建市场情绪指数,文章使用沪深300指数中的300只成分股的股吧帖子。每条帖子均包含主题公司的唯一标识符,标题,内容和带有1秒颗粒度的时间戳。文章删除重复的帖子,删除非文本项(例如编码图像,表格和HTML标签)。

图片来源:http://guba.eastmoney.com/


每天平均帖子数量为17029,平均帖子包含110个汉字。文章仅保留少于500个汉字的帖子,长的帖子通常是从其他来源(如新闻报道和分析报告)中复制并粘贴。
文章删除4.85%的帖子,最后得到59,875,650条帖子,其中每条帖子平均包含47个字符。


工作日的帖子多于周末,并且交易时间的发帖活动比非交易时间的发帖活动更为密集。帖子的总量几乎在交易时间和非交易时间之间平均分配。

文章展示了一周中每天半小时的平均帖子数:



Python中的jieba分词,加载了自定义词典(CSM字典、上市公司名称的字典、搜狗词典的通用金融术语词典),删除停用词(17个停用词),删除罕见词(约6000万条帖子中少于10次的词),删除标点符号、数字,最后形成654,555个唯一中文单词的词汇表。


文章采用了三种方法:字典,支持向量机(SVM)和卷积神经网络(CNN),从帖子中提取文本情感。


字典法
最常用方法:字典法Tetlock (2007), Loughran and McDonald (2011, 2016), and Garc??a (2013)。
文章以LM词典为基准,其中LM词典是Loughran and McDonald (2011)金融词典的中文翻译,LM词典从公司10-K报告中收集正面和负面词,将353个肯定词和2337个否定词翻译成中文(google、百度、有道),作者手动筛选并删除异常单词,形成中文LM词典:包含608个肯定词和2,274个否定词。
同时将RA读取40,000条帖子,手动标记为{积极,消极,中性} ,提供判断的关键字列表作为扩展词典,最后形成中国股票市场(CSM)词典。



向量机(SVM)和卷积神经网络(CNN)

SVM和CNN是流行的机器学习方法,已广泛用于许多学术和商业领域。


具体而言,文本情感指数的计算公式如下:




人工情感标注中,在59,875,650条帖子选择40,000条帖子的训练子样本,选取原则为200个最大的(按市值计算)股票中随机选择200条帖子(200×200)。RA由北京大学经济学专业的14名研究生组成。RA的任务是对帖子进行“积极”,“消极”或“中性”标注,同时提供关键字列表。作者对RA进行培训阅读标注情感指南。最后对RA分配1,000条帖子进行测试,测试通过的RA进入下一轮RA标注。
每封邮件均由两名RA独立阅读,只有当两个RA提供相同的标签时,才有效。标注过程中平均每条帖子51秒,总时间约为1200小时。最后,随机检查2500条帖子,手动筛选识别出的所有关键词。
将标记的样本随机分为三个子样本,训练(60%),验证(20%),测试(20%)。训练样本,估计SVM和CNN中的参数;验证样本,确定调整参数,SVM中的C,CNN中的滤波器数量和提前停止点;测试样本,计算分类准确性。

对字典法,SVM和CNN的分类准确性的比较。SVM和CNN在模仿人类读者的判断上具有最高且非常相似的分类准确性(81%)。



三、中国股市的文本情绪指数


对于CSI300指数中的每只股票i,文章使用交易日t-1至交易日t 3:00pm期间该股票发布的所有帖子的平均情感分数,构建交易日t的每日文本情感指数。
绘制了CISI的每日时间序列及其22天移动平均线。CISI似乎是平稳的,并表现出非平凡的持久性。在2015年市场崩盘期间,也看到文本情绪大幅下降。


四、文本情绪的应用

由于股吧帖子数据的高频时间戳可用,因此文章可以集中精力在“隔夜”累积的文本信息,上一交易日收盘后日期和新交易日的开始。由于中国股票市场的上市后价格发现非常有限,因此隔夜文本信息受并发市场价格信号的影响要小得多。



文章利用构建的文本情绪,检验了有关文本情绪,股票收益和波动性的几种假设,反应不足和反应过度,截面异质性以及时变效应。?这篇论文是文本情绪构建文献中,对机器学习具体步骤介绍较为详细的论文,可以为不同领域的人所学习、参考,感兴趣的读者可以下载论文阅读具体内容。


Abstract

This paper develops textual sentiment measures for China's stock market by extracting the textual tone of 60 million messages posted on a major online investor forum in China from 2008 to 2018. We conduct sentiment extraction by using both conventional dictionary methods based on customized word lists and supervised machine-learning methods (support vector machine and convolutional neural network). The market-level textual sentiment index is constructed as the average of message-level sentiment scores, and the textual disagreement index is constructed as their dispersion. These textual measures allow us to test a range of predictions of classical behavioral asset-pricing models within a unified empirical setting. We find that textual sentiment can significantly predict market return, exhibiting a salient underreaction-overreaction pattern on a time scale of several months. This effect is more pronounced for small and growth stocks, and is stronger under higher investor attention and during more volatile periods. We also find that textual sentiment exerts a significant and asymmetric impact on future volatility. Finally, we show that trading volume will be higher when textual sentiment is unusually high or low and when there are more differences of opinion, as measured by our textual disagreement. Based on a massive textual dataset, our analysis provides support for the noise-trading theory and the limits-to-arbitrage argument, as well as predictions from limited-attention and disagreement models.

排? ? 版 | 石庆宇

审? ? 核 |?郭???峰

责任编辑:南风金融网

最火资讯

首页 | 财经资讯 | 金融理财 | 价格行情

Copyright © 2012-2015 南风金融网门户站 版权所有 Power by DedeCms 豫ICP备12016580号  技术支持:南风金融网

电脑版 | 移动版