Orthogonal Disentanglement with Projected Feature Alignment for Multimodal Emotion Recognition in Conversation - 专知论文

会员服务 ·

0

模态 · 对齐 · 识别 · 解耦 · 情感识别 ·

Orthogonal Disentanglement with Projected Feature Alignment for Multimodal Emotion Recognition in Conversation

翻译：基于投影特征对齐的正交解耦多模态对话情感识别

Xinyi Che,Wenbo Wang,Jian Guan,Qijun Zhao

from arxiv, 5 pages, 1 figure

Multimodal Emotion Recognition in Conversation (MERC) significantly enhances emotion recognition performance by integrating complementary emotional cues from text, audio, and visual modalities. While existing methods commonly utilize techniques such as contrastive learning and cross-attention mechanisms to align cross-modal emotional semantics, they typically overlook modality-specific emotional nuances like micro-expressions, tone variations, and sarcastic language. To overcome these limitations, we propose Orthogonal Disentanglement with Projected Feature Alignment (OD-PFA), a novel framework designed explicitly to capture both shared semantics and modality-specific emotional cues. Our approach first decouples unimodal features into shared and modality-specific components. An orthogonal disentanglement strategy (OD) enforces effective separation between these components, aided by a reconstruction loss to maintain critical emotional information from each modality. Additionally, a projected feature alignment strategy (PFA) maps shared features across modalities into a common latent space and applies a cross-modal consistency alignment loss to enhance semantic coherence. Extensive evaluations on widely-used benchmark datasets, IEMOCAP and MELD, demonstrate effectiveness of our proposed OD-PFA multimodal emotion recognition tasks, as compared with the state-of-the-art approaches.

翻译：多模态对话情感识别通过整合文本、音频和视觉模态的互补情感线索，显著提升了情感识别性能。现有方法通常采用对比学习和跨模态注意力机制等技术来对齐跨模态情感语义，但往往忽视了模态特定的情感细微差异，如微表情、语调变化和讽刺性语言。为克服这些局限性，我们提出了基于投影特征对齐的正交解耦框架，该新颖框架明确设计用于同时捕获共享语义和模态特定的情感线索。我们的方法首先将单模态特征解耦为共享分量和模态特定分量。正交解耦策略通过重建损失的辅助，强制实现这些分量间的有效分离，同时保留各模态的关键情感信息。此外，投影特征对齐策略将跨模态的共享特征映射到公共潜在空间，并应用跨模态一致性对齐损失以增强语义连贯性。在广泛使用的基准数据集IEMOCAP和MELD上进行的大量评估表明，相较于最先进的方法，我们提出的OD-PFA框架在多模态情感识别任务中具有显著优势。

0

相关内容

多模态对话情感识别：方法、趋势、挑战与前景综述

多模态对话情感识别：方法、趋势、挑战与前景综述

专知会员服务

20+阅读 · 2025年5月28日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

《多模态对齐与融合》综述

《多模态对齐与融合》综述

专知会员服务

99+阅读 · 2024年11月27日

大型语言模型遇上文本中心的多模态情感分析：综述

大型语言模型遇上文本中心的多模态情感分析：综述

专知会员服务

25+阅读 · 2024年6月13日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【AAAI2021】Co-GAT:一种用于联合对话行为识别和情感分类的协同交互图注意力网络

【AAAI2021】Co-GAT:一种用于联合对话行为识别和情感分类的协同交互图注意力网络

专知会员服务

19+阅读 · 2021年2月1日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知会员服务

170+阅读 · 2020年12月21日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知会员服务

195+阅读 · 2020年12月3日

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

专知会员服务

51+阅读 · 2019年10月22日

揭秘ChatGPT情感对话能力

揭秘ChatGPT情感对话能力

专知

16+阅读 · 2023年4月9日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向非接触式、非稳定和长时间尺度生理信号的情感状态自动识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向情感认知的产品造型特征与用户意象需求层次映射机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模式情感测量的考虑多维设计特征的产品外观情感设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations

Arxiv

0+阅读 · 2月26日

Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis

Arxiv

0+阅读 · 2月23日

Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations

Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations

Arxiv

0+阅读 · 2月18日

Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations

Arxiv

0+阅读 · 2月16日

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Arxiv

0+阅读 · 2月12日

Reasoning under Ambiguity: Uncertainty-Aware Multilingual Emotion Classification under Partial Supervision

Arxiv

0+阅读 · 2月11日

Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization

Arxiv

0+阅读 · 2月6日

XEmoGPT: An Explainable Multimodal Emotion Recognition Framework with Cue-Level Perception and Reasoning

Arxiv

0+阅读 · 2月5日

Reasoning under Ambiguity: Uncertainty-Aware Multilingual Emotion Classification under Partial Supervision

Arxiv

0+阅读 · 2月5日

Decoupled Hierarchical Distillation for Multimodal Emotion Recognition

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

0+阅读 · 今天15:36

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

0+阅读 · 今天15:30

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

2+阅读 · 今天14:43

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

2+阅读 · 今天14:30

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

2+阅读 · 今天14:26

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

4+阅读 · 今天14:22

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

3+阅读 · 今天14:12

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

7+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

5+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

10+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

19+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

8+阅读 · 6月3日

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

7+阅读 · 6月3日

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

5+阅读 · 6月3日

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

17+阅读 · 6月2日

相关VIP内容

多模态对话情感识别：方法、趋势、挑战与前景综述

多模态对话情感识别：方法、趋势、挑战与前景综述

专知会员服务

20+阅读 · 2025年5月28日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

《多模态对齐与融合》综述

《多模态对齐与融合》综述

专知会员服务

99+阅读 · 2024年11月27日

大型语言模型遇上文本中心的多模态情感分析：综述

大型语言模型遇上文本中心的多模态情感分析：综述

专知会员服务

25+阅读 · 2024年6月13日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【AAAI2021】Co-GAT:一种用于联合对话行为识别和情感分类的协同交互图注意力网络

【AAAI2021】Co-GAT:一种用于联合对话行为识别和情感分类的协同交互图注意力网络

专知会员服务

19+阅读 · 2021年2月1日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知会员服务

170+阅读 · 2020年12月21日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知会员服务

195+阅读 · 2020年12月3日

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

专知会员服务

51+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

AgentOps综述：智能体系统运维框架

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

《美陆军最新条令：兵力防护》

相关资讯

揭秘ChatGPT情感对话能力

揭秘ChatGPT情感对话能力

专知

16+阅读 · 2023年4月9日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

相关论文

A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations

Arxiv

0+阅读 · 2月26日

Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis

Arxiv

0+阅读 · 2月23日

Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations

Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations

Arxiv

0+阅读 · 2月18日

Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations

Arxiv

0+阅读 · 2月16日

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Arxiv

0+阅读 · 2月12日

Reasoning under Ambiguity: Uncertainty-Aware Multilingual Emotion Classification under Partial Supervision

Arxiv

0+阅读 · 2月11日

Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization

Arxiv

0+阅读 · 2月6日

XEmoGPT: An Explainable Multimodal Emotion Recognition Framework with Cue-Level Perception and Reasoning

Arxiv

0+阅读 · 2月5日

Reasoning under Ambiguity: Uncertainty-Aware Multilingual Emotion Classification under Partial Supervision

Arxiv

0+阅读 · 2月5日

Decoupled Hierarchical Distillation for Multimodal Emotion Recognition

Arxiv

0+阅读 · 2月4日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向非接触式、非稳定和长时间尺度生理信号的情感状态自动识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向情感认知的产品造型特征与用户意象需求层次映射机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模式情感测量的考虑多维设计特征的产品外观情感设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员