Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities - 专知论文

会员服务 ·

0

模态 · 识别 · 多模 · 鲁棒 · 系统 ·

Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities

翻译：自适应多模态人员识别：一种处理缺失模态的鲁棒框架

Aref Farhadipour,Teodora Vukovic,Volker Dellwo,Petr Motlicek,Srikanth Madikeri

from arxiv, 9 pages and 8 tables

Person identification systems often rely on audio, visual, or behavioral cues, but real-world conditions frequently result in missing or degraded modalities. To address this challenge, we propose a multimodal person identification framework that utilizes gesture as a situational enhancer to supplement traditional modalities like voice and face. Our model employs a unified hybrid fusion strategy, integrating both feature-level and score-level information to maximize representational richness and decision accuracy. Specifically, it leverages multi-task learning to process modalities independently, followed by cross-attention and gated fusion mechanisms. Finally, a confidence-weighted strategy dynamically adapts to missing data, ensuring that our single classification head achieves optimal performance even in unimodal and bimodal scenarios. We evaluate our method on CANDOR, a newly introduced interview-based multimodal dataset, which we benchmark in this work for the first time. Our results demonstrate that the proposed trimodal system achieves 99.51% Top-1 accuracy on person identification tasks. In addition, we evaluate our model on the VoxCeleb1 dataset as a benchmark and reach 99.92% accuracy in bimodal mode, outperforming conventional approaches. Moreover, we show that our system maintains high accuracy even when one or two modalities are unavailable, making it a robust solution for real-world person recognition applications. The code and data for this work are publicly available.

翻译：人员识别系统通常依赖于音频、视觉或行为线索，但现实环境常导致模态缺失或质量下降。为应对这一挑战，我们提出一种多模态人员识别框架，利用手势作为情境增强器来补充语音和人脸等传统模态。该模型采用统一的混合融合策略，整合特征级与分数级信息，以最大化表征丰富度和决策准确性。具体而言，模型通过多任务学习独立处理各模态，随后结合交叉注意力与门控融合机制。最终，置信度加权策略动态适应缺失数据，确保单一分类头即使在单模态和双模态场景下也能实现最优性能。我们在新引入的基于访谈的多模态数据集CANDOR上评估所提方法，该数据集于本研究中首次建立基准。实验结果表明，所提出的三模态系统在人员识别任务中达到99.51%的Top-1准确率。此外，我们在VoxCeleb1数据集上进行基准测试，双模态模式下达到99.92%的准确率，优于传统方法。更重要的是，即使在一或两种模态不可用的情况下，系统仍能保持高精度，这使其成为现实世界人员识别应用的鲁棒解决方案。本研究的代码与数据已公开提供。

0

相关内容

通用多模态人工智能：架构、挑战和机遇综述

通用多模态人工智能：架构、挑战和机遇综述

专知会员服务

52+阅读 · 2024年6月29日

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

专知会员服务

49+阅读 · 2023年4月28日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知会员服务

84+阅读 · 2023年4月6日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

150+阅读 · 2022年6月25日

【Science Advances】MIT最新论文《特化类脑功能在深度神经网络中自发应用》，人脸识别的优化解决方案

【Science Advances】MIT最新论文《特化类脑功能在深度神经网络中自发应用》，人脸识别的优化解决方案

专知会员服务

16+阅读 · 2022年4月10日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知会员服务

170+阅读 · 2020年12月21日

鲁棒模式识别研究进展

鲁棒模式识别研究进展

专知会员服务

41+阅读 · 2020年8月9日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

Pytorch多模态框架MMF

Pytorch多模态框架MMF

专知

50+阅读 · 2020年6月20日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

干货｜基于双流递归神经网络的人体骨架行为识别！

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于稀疏表示和低秩矩阵分解的鲁棒人脸识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations

Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations

Arxiv

0+阅读 · 2月18日

A Human-in-the-Loop Confidence-Aware Failure Recovery Framework for Modular Robot Policies

Arxiv

0+阅读 · 2月10日

Redundancy-Free View Alignment for Multimodal Human Activity Recognition with Arbitrarily Missing Views

Arxiv

0+阅读 · 2月9日

XEmoGPT: An Explainable Multimodal Emotion Recognition Framework with Cue-Level Perception and Reasoning

Arxiv

0+阅读 · 2月5日

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation

Arxiv

0+阅读 · 2月5日

Mixture of Disentangled Experts with Missing Modalities for Robust Multimodal Sentiment Analysis

Arxiv

0+阅读 · 2月2日

Multimodal Multi-Agent Ransomware Analysis Using AutoGen

Arxiv

0+阅读 · 1月28日

Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities

Arxiv

0+阅读 · 1月27日

MultiVis-Agent: A Multi-Agent Framework with Logic Rules for Reliable and Comprehensive Cross-Modal Data Visualization

Arxiv

0+阅读 · 1月26日

Dynamic Hand Gesture Recognition for Robot Manipulator Tasks

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

3+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

3+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

3+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

2+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

10+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

7+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

3+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

5+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

3+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

3+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

相关VIP内容

通用多模态人工智能：架构、挑战和机遇综述

通用多模态人工智能：架构、挑战和机遇综述

专知会员服务

52+阅读 · 2024年6月29日

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

专知会员服务

49+阅读 · 2023年4月28日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知会员服务

84+阅读 · 2023年4月6日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

150+阅读 · 2022年6月25日

【Science Advances】MIT最新论文《特化类脑功能在深度神经网络中自发应用》，人脸识别的优化解决方案

【Science Advances】MIT最新论文《特化类脑功能在深度神经网络中自发应用》，人脸识别的优化解决方案

专知会员服务

16+阅读 · 2022年4月10日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知会员服务

170+阅读 · 2020年12月21日

鲁棒模式识别研究进展

鲁棒模式识别研究进展

专知会员服务

41+阅读 · 2020年8月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

Pytorch多模态框架MMF

Pytorch多模态框架MMF

专知

50+阅读 · 2020年6月20日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

干货｜基于双流递归神经网络的人体骨架行为识别！

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

相关论文

Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations

Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations

Arxiv

0+阅读 · 2月18日

A Human-in-the-Loop Confidence-Aware Failure Recovery Framework for Modular Robot Policies

Arxiv

0+阅读 · 2月10日

Redundancy-Free View Alignment for Multimodal Human Activity Recognition with Arbitrarily Missing Views

Arxiv

0+阅读 · 2月9日

XEmoGPT: An Explainable Multimodal Emotion Recognition Framework with Cue-Level Perception and Reasoning

Arxiv

0+阅读 · 2月5日

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation

Arxiv

0+阅读 · 2月5日

Mixture of Disentangled Experts with Missing Modalities for Robust Multimodal Sentiment Analysis

Arxiv

0+阅读 · 2月2日

Multimodal Multi-Agent Ransomware Analysis Using AutoGen

Arxiv

0+阅读 · 1月28日

Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities

Arxiv

0+阅读 · 1月27日

MultiVis-Agent: A Multi-Agent Framework with Logic Rules for Reliable and Comprehensive Cross-Modal Data Visualization

Arxiv

0+阅读 · 1月26日

Dynamic Hand Gesture Recognition for Robot Manipulator Tasks

Arxiv

0+阅读 · 1月19日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于稀疏表示和低秩矩阵分解的鲁棒人脸识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员