Research increasingly leverages audio-visual materials to analyze emotions in political communication. Multimodal large language models (mLLMs) promise to enable such analyses through in-context learning. However, we lack systematic evidence on whether these models can reliably measure emotions in real-world political settings. This paper evaluates leading mLLMs for video-based emotional arousal measurement using two complementary human-labeled video datasets: recordings created under laboratory conditions and real-world parliamentary debates. I find a critical lab-vs-field performance gap. In video created under laboratory conditions, mLLMs arousal scores approach human-level reliability with little to no demographic bias. However, in parliamentary debate recordings, all examined models' arousal scores correlate at best moderately with average human ratings and exhibit systematic bias by speaker gender and age. Neither relying on leading closed-source mLLMs nor computational noise mitigation strategies change this finding. Further, mLLMs underperform even in sentiment analysis when using video recordings instead of text transcripts of the same speeches. These findings reveal important limitations of current mLLMs for real-world political video analysis and establish a rigorous evaluation framework for tracking future developments.


翻译:研究越来越多地利用视听材料来分析政治传播中的情感。多模态大语言模型有望通过情境学习实现此类分析。然而,我们缺乏系统性的证据来证明这些模型能否在现实世界的政治环境中可靠地测量情感。本文使用两个互补的人工标注视频数据集——实验室条件下录制的视频和现实世界议会辩论录像——评估了领先的多模态大语言模型在基于视频的情感唤醒度测量方面的表现。我发现了一个关键的实验室与现场性能差距。在实验室条件下录制的视频中,多模态大语言模型的唤醒度评分接近人类水平的可靠性,且几乎没有人口统计学偏差。然而,在议会辩论录像中,所有被考察模型的唤醒度评分与人类平均评分的相关性最多仅为中等,并表现出由发言者性别和年龄导致的系统性偏差。无论是依赖领先的闭源多模态大语言模型,还是采用计算噪声缓解策略,都无法改变这一发现。此外,当使用视频录像而非相同演讲的文本转录稿时,多模态大语言模型甚至在情感分析任务中也表现不佳。这些发现揭示了当前多模态大语言模型在现实世界政治视频分析中的重要局限性,并建立了一个严格的评估框架以追踪未来的发展。

0
下载
关闭预览

相关内容

多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
大型语言模型遇上文本中心的多模态情感分析:综述
专知会员服务
25+阅读 · 2024年6月13日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
58+阅读 · 2024年5月28日
【CMU博士论文】多感官人工智能的基础
专知会员服务
40+阅读 · 2024年5月3日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
情感计算研究进展、现状及趋势
哈工大SCIR
26+阅读 · 2022年4月27日
情感计算综述
人工智能学家
34+阅读 · 2019年4月6日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
深度学习在情感分析中的应用
CSDN大数据
14+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员