Understanding human emotions from multimodal signals poses a significant challenge in affective computing and human-robot interaction. While multimodal large language models (MLLMs) have excelled in general vision-language tasks, their capabilities in emotional reasoning remain limited. The field currently suffers from a scarcity of large-scale datasets with high-quality, descriptive emotion annotations and lacks standardized benchmarks for evaluation. Our preliminary framework, Emotion-LLaMA, pioneered instruction-tuned multimodal learning for emotion reasoning but was restricted by explicit face detectors, implicit fusion strategies, and low-quality training data with limited scale. To address these limitations, we present Emotion-LLaMAv2 and the MMEVerse benchmark, establishing an end-to-end pipeline together with a standardized evaluation setting for emotion recognition and reasoning. Emotion-LLaMAv2 introduces three key advances. First, an end-to-end multiview encoder eliminates external face detection and captures nuanced emotional cues via richer spatial and temporal multiview tokens. Second, a Conv Attention pre-fusion module is designed to enable simultaneous local and global multimodal feature interactions external to the LLM backbone. Third, a perception-to-cognition curriculum instruction tuning scheme within the LLaMA2 backbone unifies emotion recognition and free-form emotion reasoning. To support large-scale training and reproducible evaluation, MMEVerse aggregates twelve publicly available emotion datasets, including IEMOCAP, MELD, DFEW, and MAFW, into a unified multimodal instruction format. The data are re-annotated via a multi-agent pipeline involving Qwen2 Audio, Qwen2.5 VL, and GPT 4o, producing 130k training clips and 36k testing clips across 18 evaluation benchmarks.


翻译:从多模态信号中理解人类情感是情感计算与人机交互领域的一项重大挑战。尽管多模态大语言模型在通用视觉-语言任务中表现出色,但其在情感推理方面的能力仍然有限。当前该领域面临高质量、描述性情感标注的大规模数据集稀缺,且缺乏标准化的评估基准。我们先前提出的框架Emotion-LLaMA开创了面向情感推理的指令调优多模态学习,但受限于显式人脸检测器、隐式融合策略以及规模有限、质量不高的训练数据。为克服这些局限性,我们提出了Emotion-LLaMAv2与MMEVerse基准,为情感识别与推理建立了一个端到端的流程及标准化的评估设置。Emotion-LLaMAv2引入了三项关键改进。首先,一个端到端的多视角编码器消除了对外部人脸检测的依赖,并通过更丰富的空间与时间多视角令牌捕捉细微的情感线索。其次,设计了一个Conv Attention预融合模块,使其能在LLM骨干网络之外实现局部与全局多模态特征的同步交互。第三,在LLaMA2骨干网络中采用了一种从感知到认知的课程式指令调优方案,统一了情感识别与自由形式的情感推理。为支持大规模训练与可复现的评估,MMEVerse将十二个公开可用的情感数据集(包括IEMOCAP、MELD、DFEW和MAFW)整合为统一的多模态指令格式。这些数据通过一个涉及Qwen2 Audio、Qwen2.5 VL和GPT 4o的多智能体流程进行了重新标注,生成了涵盖18个评估基准的13万条训练片段和3.6万条测试片段。

0
下载
关闭预览

相关内容

多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
大型语言模型遇上文本中心的多模态情感分析:综述
专知会员服务
25+阅读 · 2024年6月13日
【MIT博士论文】情感理解的计算框架,200页pdf
专知会员服务
41+阅读 · 2023年4月9日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
43+阅读 · 2020年9月8日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
深度学习在情感分析中的应用
CSDN大数据
14+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
深度学习在情感分析中的应用
CSDN大数据
14+阅读 · 2017年8月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员