评论中包含丰富观点信息,长度限制,用户往往直切主题。在产品和服务领域,观点通常最容易处理。相对来说,针对社会和政治的观点比较困难,因为其主题复杂且充斥情感表达、讽刺、反讽等语言现象。
观点定义
两个观点粒度问题:单一观点、一组观点。
观点的定义
定义2.1(观点):
一个观点是一个四元组,(g, s, h, t),其中,g是观点评价对象,s是情感,h是观点持有者,t是表达此观点的时间。
定义2.3(实体):
一个实体可以用一个对e:(T, W)来描述,其中T是一个层次关系,包含组件、子组件,W是e的一个属性组合。
观点中的情感
定义2.4(情感):
情感用三元组表示,(y, o, i),其中,y是情感类型,o是情感倾向,i是情感的强度。
情感类型:理性、感性
情感倾向:正面、负面、中立。
情感强度:离散化评分表达情感的强度
简化的观点定义
用属性aspect指代目标实体的组件和参数。
给出把非结构化文本转换为结构化数据的基本框架
定义2.7(观点):
观点是一个五元组,(e, a, s, h, t),e是目标实体,a是实体e中一个观点评价的实体属性,s是实体e的a属性的观点中包含的情感,h是观点持有者,t是观点发布时间。这里e,a共同表示观点评价的对象。
基于此定义的情感分析(或称为观点挖掘)常称为基于属性的情感分析。
观点的理由和限定条件
实际上,仅仅分析出负面情感还不够,需要知道引起负面情感的原因。另外需要了解观点的限定条件。
定义2.8(观点的原因):
引起或触发观点的缘由,或对观点之所以如此的解释。
定义2.9(观点的限定条件):
可以限制和约束观点中的含义。
情感分析的目标和任务
情感分析的目标 给定一个包含观点信息的文档d,找出所有的观点五元组(e, a, s, h, t)。更高级的分析需求,找出每个观点五元组中情感的原因和限定条件。
情感分析的关键任务 与五元组成分密切相关,第一个任务是抽取实体,这个任务与信息抽取中的命名实体识别比较类似,不同之处在于一个实体可以是事件、议题或主题,这些均不是命名实体。
抽取完成后,对抽取出的实体进行分类。
属性抽取是一个很有挑战的任务。
观点定义中,第三个成分是观点的情感。对情感,需要进行情感分类或回归,以确定属性或实体的观点倾向或情感打分。第四和第五个成分分别是观点持有者和观点的发布时间,容易提取。
实体模型
一个实体e由它自己的整体,以及它的一个有限的属性集合A={a1, a2, … , an}来表示;在文本中,实体e可以由实体表达的有限集合{ee1, ee2, … , ees}中任一元素来表示。实体e的每个属性a也可以由属性表达的有限集合{ae1, ae2, … , aem}中任一元素来表示。
观点文档模型 包含观点的文档d包含针对一个有限实体集合{e1, e2, … , er}及其属性子集的观点信息。
给定观点文档集合D,情感分析主要包括如下8个任务:
任务1(实体抽取和消解):抽取D中所有实体表达,并把相似实体表达聚类为一些实体簇(或类别)。每个实体表达簇都对应一个唯一的实体。
任务2(属性抽取和消解):
任务3(观点持有者抽取和消解):
任务4(时间抽取和标准化):
任务5(属性的情感分类和回归):
任务6(生成观点五元组):
任务7(观点原因抽取和消解):
任务8(观点限定条件抽取和消解):
观点的原因和限定条件十分有用,但是对于它们的抽取和聚类却非常有挑战性。
观点摘要的定义
定义2.14(基于属性的观点摘要):
对于实体e的基于属性的观点摘要结果具有如下形式:
GENERAL:对实体e持正面观点的人数
对实体e持负面观点的人数
属性1 :对实体e的属性1持正面观点的人数
对实体e的属性1持负面观点的人数
……
感情、情绪和心情
定义2.15(情绪): 情绪是一个五元组,(e, a, m, f, t),e是目标实体,a是e的属性,是情绪书法的目标,m是情绪类型或一个情绪类型和强度构成的元组,f是情绪的接受者,t是情绪表达的时间。
发布时间: 2019-10-16
最后更新: 2019-10-18
本文链接: https://juoyo.github.io/posts/dd993dfa.html
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!