多模态数据主要指声音、图像、文字,以及传感器数据,本文所指多模态数据不涉及传感器数据。如何分析多模态数据,是当前情感分析领域面临的机遇和挑战。
介绍
一方面,以往情感分析聚焦于单个模态。如文本情感分析着眼于分析,挖掘和推理文本中蕴含的情感。另一方面,多模态数据与单模态数据相比,包含了更多的信息,多个模态之间可以互相补充。
不同模态信息相互补充,可以帮助机器更好地理解情感。从人机交互角度出发,多模态情感分析可以使得机器在更加自然的情况下与人进行交互。机器可以基于图像中人的表情和手势,声音中的音调,和识别出的自然语言来理解用户情感,进而进行反馈。
虽然多模态数据包含了更多的信息,但如何进行多模态数据的融合,使得利用多模态数据能够提升效果,而不是起了反作用。如何利用不同模态数据之间的对齐信息,建模不同模态数据之间关联。
为了能够更好的介绍多模态情感分析领域的相关研究,本文梳理了目前多模态情感分析领域相关任务并总结了常用的数据集及对应的方法。
相关任务概览
本文通过不同模态组合(图文:文本+图片,视频:文本+图片+音频)来梳理相关的研究任务。
面向图文的情感分析任务有面向图文的情感分类任务,面向图文的方面级情感分类任务和面向图文的反讽识别任务
面向视频的情感分析任务有面向评论视频的情感分类任务,面向新闻视频的情感分类任务,面向对话视频的情感分类任务和面向对话视频的反讽识别任务。
数据集和方法
本文总结了13个公开数据集,其中包括8个视频数据集和5个图文数据集。本文还总结了与面向图文的情感分类任务,面向图文的方面级情感分类任务,面向图文的反讽识别任务,面向评论视频的情感分类任务和面向对话视频的情感分类任务五个任务对应的相关研究方法。
面向图文的情感分类任务
数据集
Yelp数据集来自Yelp.com评论网站,收集的是波士顿,芝加哥,洛杉矶,纽约,旧金山五个城市关于餐厅和食品的Yelp上的评论。一共有44305条评论,244569张图片(每条评论的图片有多张),平均每条评论有13个句子,230个单词。数据集的情感标注是对每条评论的情感倾向打1,2,3,4,5五个分值。
Tumblr数据集是从Tumblr收集来的多模态情绪数据集。Tumblr是一种微博客服务,用户在上面发布的多媒体内容通常包含:图片、文本和标签。数据集是根据选定的十五种情绪搜索对应的情绪标签的推文,并且只选择其中既有文本又有图片的部分,然后进行了数据处理,删除了那些文本中原本就包含对应情绪词的内容,以及那些主要不是英文为主的推文。整个数据集共有256897个多模态推文,其中情绪标注为包含高兴,悲伤,厌恶在内的十五种情绪。
方法
面向图文的方面级情感分类任务
数据集
发布时间: 2019-12-17
最后更新: 2019-12-21
本文链接: https://juoyo.github.io/posts/156aeb2d.html
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!