波动率预测(volatility)是金融市场的一个重要指标,近年来有人通过情感分析的方法来解决这个问题。这篇文章调查了股票市场中公司年度披露文档的情感来预报波动率。
论文介绍https://arxiv.org/abs/1702.01978
论文下载https://arxiv.org/pdf/1702.01978.pdf
摘要
情绪分析理论已经用于解决金融市场波动性预测,调查股票市场年度披露的情绪来预测市场波动。探索使用最新信息检索(IR)术语权重模型,通过使用相关术语词嵌入进行高效扩展。除了文本信息外,真实市场数据已经被用作主流方法,来预测市场风险。我们融合文本和市场数据,基于词嵌入的方法明显优于其他最好方法,我们还研究了不同金融领域公司报告的特点。
引言
我们的研究是建立在以前的研究基础上的波动率预测与10-K报告情绪信息分析。在利用文本内容对波动率进行预测方面,本文给出了最先进的收益于词嵌入信息的信息检索(IR)项权重模型,对预测精度有显著的正向影响。最近关于这个话题的研究(Tsai and Wang, 2014)使用词内嵌获得的相关词汇来扩展情感性词汇的词汇量。相反,与Rekabsaz等人(2016b)相似,我们通过将每个词汇扩展到文档中相似的词汇来定义每个词汇的权重。该方法在文献检索方面有显著改进,通过抓住词汇的重要性促使我们将其应用于情感分析。
此外,我们还阐明了针对每个部门调整分析的效果:预期特定领域的训练将导致提升,我们的常规模型泛化能力好,并优于行业特定的训练模型。
相关工作
Xie等(2013)提出了一种基于语义树的模型来表示预测股价走势的新闻数据。Luss等人(2015)也利用新闻与回报价格相结合来预测当天的价格走势。他们使用多内核学习(MKL)算法来结合这两个特性。与单独使用每个特性相比,这种组合在最终预测方面显示出改进。在那些研究的推动下,我们研究了将文本信息与非文本信息相结合的MKL算法的性能。
上述研究使用短文本(句子或段落级),而接近长文本(文档级)进行市场预测主要基于n克袋词法。Nopp和Hanbury(2015)使用Loughran和McDonald(2011)提供的金融专用词汇研究了银行年报的情绪,以评估银行系统风险因素。
Kogan等人(2009)对1996-2006年发表的报告使用线性支持向量机(SVM)算法,这与10-K波动预测报告的信息量更直接相关。Wang et al.(2013)利用Loughran和McDonald(2011)的词典对其进行了改进,观察了预测的改进。之后,Tsai和Wang(2014)采用了与Wang et al.(2013)相同的方法,并在此基础上增加了词内嵌来扩展金融词汇。我们复制了这些研究中的所有方法,并展示了我们的情绪分析方法的优势。
问题公式化
在这一节中,我们阐述了波动率预测问题和我们实验的预测目标。波动率被定义为的自然对数的标准差(调整)返回τ天的价格在一个窗口。这个定义称为标准波动率(Li and Hong, 2011)或已实现波动率(Liu and Tse,2013),定义如下:
方法论
首先描述了文本情绪分析方法,然后介绍了从实际市场数据中获得的特征,最后解释了将文本和市场特征集结合起来的方法。
情绪分析
与之前的研究相似(Nopp and Hanbury, 2015;Wang et al., 2013),我们使用积极组、消极组和不确定组从一个特定金融的词汇库中提取关键字集(Loughran and McDonald, 2011),使用英文分词算法。我们将这个关键字集称为Lex。Tsai和Wang(2014)对该集合进行了扩展,将每一项的前20个相关项添加到原集合中,利用所有报告语料库构建的Word2Vec (Mikolov et al., 2013)模型得到相关项,具有余弦相似性。我们还在实验中使用了这个扩展集,并将其称为LexExt。
在检索资讯时,我们常用以下字词加权方案,并在我们的研究中加以考虑:
除了标准的加权方案,我们使用先进的信息检索中的直接受益于词嵌入模型的权重方法(Rekabsaz et al ., 2016 b):它们利用词嵌入模型提供的词与词之间的相似度值,通过扩展每个词库关键字的相似词的权重,实现加权方案:
由Lex或LexExt词汇的权重生成的特征向量是高度稀疏的,因为维度的数量大于数据点的数量。因此,我们通过应用主成分分析(PCA)来减少维数。我们的初步实验表明,400维是从50到1000维的最佳尺寸。
给出了最终的l维特征向量x,我们将SVM作为一种众所周知的训练回归和分类方法。
内核可以看作是文档的特征向量与其他所有文档的特征向量之间的(相似性)函数。我们的初步实验表明,径向基函数(RBF)核的性能优于线性核和余弦核,因此本文采用了径向基函数核。
我们使用人工神经网络(ANN)算法来测试神经网络用于自动特征学习的有效性。我们尝试了几种不同正则化方法的神经网络结构(早期停止、正则化项、退出)。采用两层隐层(分别为400和500个节点),tanh为激活函数,梯度学习率为0.001,梯度学习效果较好,且提前停止。然而,这些网络不能提供比SVM回归器更好的结果。因此,对于本报告,我们只报告SVM方法。
市场特点
除了文本特征外,我们还使用真实市场数据和历史价格(称为市场特征)定义了以下三个特征:
**Current Volatility **是按报告发出日期前的四分之一窗口计算: v (si 64−si)
GARCH (Bollerslev, 1986)是一种常用的股票预测计量时间序列模型价格波动。
Sector 是报告对应公司所属的部门,即能源(ene)、基础产业(ind)、金融(fin)、科技(tech)、杂项(misc)、非耐用消费品(n-dur)、耐用消费品(dur)、资本货物(capt)、消费服务(serv)、公用事业(pub)、医疗(hlth)1。使用一种热编码将特征转换为数值表示。
特征融合
晚期融合方法首先在每个特征集中学习一个模型,然后使用/学习一个元模型来组合它们的结果。作为我们的第二种方法,我们使用堆叠(Wolpert, 1992),这是一种晚期融合的特殊情况。在堆叠过程中,我们首先将训练集分成两部分(70%-30%)。使用第一部分,我们为每个文本和市场特性集训练单独的机器学习模型。接下来,我们用训练好的模型预测第二部分的标签,最后训练另一个模型来捕捉基本模型输出之间的组合。在我们的实验中,最终的模型总是使用带有RBF核的SVM进行训练。
由于训练集的分割,基础模型或元模型可能会缺少训练数据。在一个模型中学习这两个特性集的一种潜在方法是MKL方法。MKL算法(也称为中间融合(Noble et al., 2004))通过学习(同时学习参数)多个核心的最优组合,扩展了SVM模型的核心。
优化可能在计算上具有挑战性。我们使用mklaren方法(Strazar和Curkˇ,2016),线性复杂性数据实例的数量和内核。它已被证明优于最近的多核近似方法。我们对文本和市场特性集都使用RBF内核。
实验设计
我们从美国证券交易委员会(SEC)网站下载了2006年至2015年美国股市公司的报告。
基线GARCH:虽然GARCH模型包含市场事实信息,但是我们使用它作为基线来比较基于文本的方法和主流方法的有效性。
评价指标作为一种常用的度量可合性预测指标,我们使用r^2度量(相关系数的平方)进行评价:
实验结果
让我们从观察这些年来报告的特征向量的变化开始我们的实验。为了进行比较,我们使用了Tsai and Wang(2014)提出的最先进的情绪分析方法。我们首先通过计算当年发表的所有报告的特征向量的质心(元素均值)来表示每年的特征向量,然后计算2006-2015年每对质心向量的余弦相似度。
结论
在本文中,我们研究了最近10-K年披露的股票市场公司的情绪预测波动。我们的袋装词汇情感分析方法得益于最先进的信息检索模型,该模型使用单词嵌入将词汇的权重扩展到文档中的类似词汇。此外,我们还探索了将文本特征与真实市场特征相结合的融合方法,即GARCH预测模型和当前波动性。在这两种情况下,我们的方法都优于现有的10-K波动率预测方法,并证明了情绪分析在长期波动率预测中的有效性。
此外,我们研究了每个行业在风险敏感术语方面的特征。我们的分析表明,同一部门的报告有相当大的共同风险和不稳定因素。然而,尽管有预期,在不同部门培训不同的模型与一般模型相比并没有提高性能。我们将其追溯到每个部门可用数据的大小,并表明考虑部门仍然有好处,随着更多数据可用,未来可以进一步探索这些好处。
发布时间: 2019-08-11
最后更新: 2019-08-21
本文链接: https://juoyo.github.io/posts/9e956bc.html
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!