The rapid proliferation of multimodal social media content has driven research in Multimodal Conversational Stance Detection (MCSD), which aims to interpret users' attitudes toward specific targets within complex discussions. However, existing studies remain limited by: **1) pseudo-multimodality**, where visual cues appear only in source posts while comments are treated as text-only, misaligning with real-world multimodal interactions; and **2) user homogeneity**, where diverse users are treated uniformly, neglecting personal traits that shape stance expression. To address these issues, we introduce **U-MStance**, the first user-centric MCSD dataset, containing over 40k annotated comments across six real-world targets. We further propose **PRISM**, a **P**ersona-**R**easoned mult**I**modal **S**tance **M**odel for MCSD. PRISM first derives longitudinal user personas from historical posts and comments to capture individual traits, then aligns textual and visual cues within conversational context via Chain-of-Thought to bridge semantic and pragmatic gaps across modalities. Finally, a mutual task reinforcement mechanism is employed to jointly optimize stance detection and stance-aware response generation for bidirectional knowledge transfer. Experiments on U-MStance demonstrate that PRISM yields significant gains over strong baselines, underscoring the effectiveness of user-centric and context-grounded multimodal reasoning for realistic stance understanding.


翻译:随着多模态社交媒体内容的快速激增,多模态对话立场检测(MCSD)研究应运而生,其目标是在复杂的讨论中解读用户对特定对象的态度。然而,现有研究仍存在以下局限:**1) 伪多模态性**,即视觉线索仅出现在源帖中,而评论被当作纯文本处理,这与现实世界中的多模态交互存在错位;**2) 用户同质化**,即不同用户被统一对待,忽视了塑造立场表达的个人特质。为解决这些问题,我们引入了**U-MStance**,首个以用户为中心的MCSD数据集,包含针对六个现实世界目标的超过4万条标注评论。我们进一步提出了**PRISM**,一种用于MCSD的**基于人物角色推理的多模态立场模型**。PRISM首先从历史帖子和评论中推导纵向用户角色以捕捉个体特质,然后通过思维链在对话上下文中对齐文本和视觉线索,以弥合跨模态的语义和语用鸿沟。最后,采用互任务强化机制联合优化立场检测和立场感知的回复生成,实现双向知识迁移。在U-MStance上的实验表明,PRISM相较于强基线模型取得了显著提升,凸显了以用户为中心和基于上下文的多模态推理对于现实立场理解的有效性。

0
下载
关闭预览

相关内容

多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
多模态思维链推理:全面综述
专知会员服务
61+阅读 · 2025年3月23日
大型语言模型遇上文本中心的多模态情感分析:综述
专知会员服务
25+阅读 · 2024年6月13日
基于多模态学习的虚假新闻检测研究
专知会员服务
34+阅读 · 2023年9月8日
文本立场检测综述
专知会员服务
34+阅读 · 2021年11月2日
专知会员服务
149+阅读 · 2020年9月6日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
美国军方使用的10种反无人机武器(2026年更新)
专知会员服务
3+阅读 · 今天4:07
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关VIP内容
多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
多模态思维链推理:全面综述
专知会员服务
61+阅读 · 2025年3月23日
大型语言模型遇上文本中心的多模态情感分析:综述
专知会员服务
25+阅读 · 2024年6月13日
基于多模态学习的虚假新闻检测研究
专知会员服务
34+阅读 · 2023年9月8日
文本立场检测综述
专知会员服务
34+阅读 · 2021年11月2日
专知会员服务
149+阅读 · 2020年9月6日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员