文档级情感分类是最简单的情感分析任务,因为当作传统的文本分类问题,只是类别变成情感的倾向或极性。监督学习方法可直接应用到文档级情感分类。
假设3.1
观点文档d表达的观点仅针对一个单独实体e,且只包含一个观点持有者h的观点。
情感分类常被当作二分类问题,将给定文本分为正面的和负面的情感。训练和测试数据为普通的产品评论,评论一般包含评分,4、5星正面评论,1、2星负面评论,一般不实用中性分类(3星评论)。
基于监督的情感分类
基于机器学习算法的情感分类
情感分类是文本分类问题,任何监督学习算法可直接使用。Pang等(2002)分类影评,发现使用词袋(unigram)作为特征进行分类时,无论分类器选朴素贝叶斯还是SVM,效果都非常好。
情感分类的关键是抽取有效的特征。列出特征样例:
词和词频
带有词频信息的单独词袋及与其相关的n-gram。
词性
每个词的词性是另一类特征。形容词是观点和情感的主要承载词。
情感词和情感短语
大多情感词是形容词或副词。
观点的规则
很多文本结构或语言成分可以表示或隐含情感和观点。
情感转置词
句法依存关系
句法分析或句法依存树中取得词的依存关系特征。
Gamon(2004)发现深层语言特征有助于提升分类效果,包括POS trigram,特定文本成分的长度信息,句法树中每个成分基于上下文无关短语结构模式表示的成分结构。
Mullen和Collier(2004)介绍了可以和n-gram结合的复杂特征,分三类:(1)利用词和短语的互信息PMI计算情感值特征;(2)Osgood等(1957)提出的有关形容词的三个因子值(强度、主动性、评价);(3)提及所评论实体的句子,在其附近或其中的属于1、2类的词或短语的情感值。
Joshi和Penstein-Rose(2009)在词袋特征之外,把依存句法关系和相关衍生特征应用到分类过程中。依存句法分析结果是一组三元组{reli, wj, wk}, reli是wj和wk之间的依存句法关系,wj通常指首词(head word),wk通常指修饰词(modifier word)。
1 | This is a great car. |
对于微博情感分类,Kouloumpis等(2011)使用4中特征:(1)n-gram;(2)多角度问答主观性词典;(3)动词、副词、形容词、名词和其他词性的数量统计;(4)正面、负面、中性的表情符号以及缩写和强调的二元特征。
Pang和Lee(2004)提出只利用每条评论的主观部分作为特征进行情感分类。分类问题变为图上最小割的优化问题。
Liu等(2010)针对博客和评论情感分类任务,比较不同的语言学特征,发现博客分类比评论分类效果差很多。研究提升博客分类效果方法,一种是基于信息检索方法,只考虑与给定主题相关的句子,另一种是采用简单领域适应技术。
Martineau和Finin(2009)使用新的特征权重计算策略,Delta TFIDF,
$ Vt, d = tft, d * \lg\frac{N+}{dft,+} - tft, d * \lg\frac{N-}{dft, -} = tft, d * \lg \frac{N+}{dft, +} * \frac{dft, -}{N-} $
这个词频变换加强了正负例中不均匀分布的词的重要性,削弱在正负例中均匀分布的词的重要性。
Qiu等(2009)将基于词典和自学习的方法相结合。第一步使用基于词典的迭代方法,初步用情绪词典把一些评论分类,再用正负类样例的比例控制来迭代地判别其他评论的类别。第二步利用第一步得到的分类结果作为训练数据训练分类器。
使用自定义打分函数的情感分类
基于无监督的情感分类
使用句法模板和网页检索的情感分类
使用情感词典的情感分类
情感评分预测
跨领域情感分类
跨语言情感分类
文档的情绪分类
小结
文档级情感分类目标是检测整篇文档的整体观点和情感。此级别上分类有两个缺陷:
未考虑情感或观点评价的对象。
对评论文本足够,但实际评论大多都有用户评的星级,因此这类数据并不需要情感分类。非评论文本,这种方法作用不大,因为非评论文本同时评价多个实体,难以确定非评论文本(如帖子)是否评价了用户感兴趣的实体,或者是否表达了观点。
文档级情感分析不能为用户提取更多细节。
发布时间: 2019-10-22
最后更新: 2019-10-24
本文链接: https://juoyo.github.io/posts/d5569e77.html
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!