本章讨论如何抽取观点评价的实体和实体属性。
在评论文本中,实体、实体属性是用户评价的对象,任务合并称观点评价对象抽取。通常,观点评价对象抽取后,具有相同语义的对象会归一化在一起,有助于生成观点摘要。
面对情感分析任务,抽取任务的特殊性使得任务变得相对简单。其中一个重要特征是,在文本中通常每个观点都有一个评价的对象或目标,即实体或属性。
目前,属性抽取主要方法:
通过高频名词、名词短语抽取。
利用句法关系,主要有两种类型:
2.1 句法依存关系
2.2 基于卷的词汇化模板
利用监督学习抽取
利用主题模型抽取
6.1 基于频率的属性抽取
在特定领域评论中大量出现的名词、名词短语的频率统计。
- 利用POS标注器在句子中识别名词(名词短语)
- 数据挖掘记录出现频率
- 确定阈值,保留大于阈值的名词(名词短语)
利用关联规则进行属性词挖掘,评论时常用比较固定、类似的词。
移除明显不是实体属性的名词显著提升算法精度。
6.2 利用句法关系
观点句中,情感词和观点评价对象之间会存在多种句法关系来表征它们之间的评价或修饰关系。
6.2.1 利用观点和观点评价对象间的评价关系
6.2.2利用部分整体和属性关系
6.3 基于监督学习的属性抽取
属性抽取是一种特殊的文本信息提取问题。序列学习方法包括隐马尔科夫模型(HMM)、条件随机场。
本文作者:
Yao Zhu
发布时间: 2019-10-18
最后更新: 2019-10-22
本文链接: https://juoyo.github.io/posts/360a3c18.html
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!
发布时间: 2019-10-18
最后更新: 2019-10-22
本文链接: https://juoyo.github.io/posts/360a3c18.html
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!