Person identification systems often rely on audio, visual, or behavioral cues, but real-world conditions frequently result in missing or degraded modalities. To address this challenge, we propose a multimodal person identification framework that utilizes gesture as a situational enhancer to supplement traditional modalities like voice and face. Our model employs a unified hybrid fusion strategy, integrating both feature-level and score-level information to maximize representational richness and decision accuracy. Specifically, it leverages multi-task learning to process modalities independently, followed by cross-attention and gated fusion mechanisms. Finally, a confidence-weighted strategy dynamically adapts to missing data, ensuring that our single classification head achieves optimal performance even in unimodal and bimodal scenarios. We evaluate our method on CANDOR, a newly introduced interview-based multimodal dataset, which we benchmark in this work for the first time. Our results demonstrate that the proposed trimodal system achieves 99.51% Top-1 accuracy on person identification tasks. In addition, we evaluate our model on the VoxCeleb1 dataset as a benchmark and reach 99.92% accuracy in bimodal mode, outperforming conventional approaches. Moreover, we show that our system maintains high accuracy even when one or two modalities are unavailable, making it a robust solution for real-world person recognition applications. The code and data for this work are publicly available.


翻译:人员识别系统通常依赖于音频、视觉或行为线索,但现实环境常导致模态缺失或质量下降。为应对这一挑战,我们提出一种多模态人员识别框架,利用手势作为情境增强器来补充语音和人脸等传统模态。该模型采用统一的混合融合策略,整合特征级与分数级信息,以最大化表征丰富度和决策准确性。具体而言,模型通过多任务学习独立处理各模态,随后结合交叉注意力与门控融合机制。最终,置信度加权策略动态适应缺失数据,确保单一分类头即使在单模态和双模态场景下也能实现最优性能。我们在新引入的基于访谈的多模态数据集CANDOR上评估所提方法,该数据集于本研究中首次建立基准。实验结果表明,所提出的三模态系统在人员识别任务中达到99.51%的Top-1准确率。此外,我们在VoxCeleb1数据集上进行基准测试,双模态模式下达到99.92%的准确率,优于传统方法。更重要的是,即使在一或两种模态不可用的情况下,系统仍能保持高精度,这使其成为现实世界人员识别应用的鲁棒解决方案。本研究的代码与数据已公开提供。

0
下载
关闭预览

相关内容

通用多模态人工智能:架构、挑战和机遇综述
专知会员服务
52+阅读 · 2024年6月29日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
多模态情绪识别研究综述
专知会员服务
170+阅读 · 2020年12月21日
鲁棒模式识别研究进展
专知会员服务
41+阅读 · 2020年8月9日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
通用多模态人工智能:架构、挑战和机遇综述
专知会员服务
52+阅读 · 2024年6月29日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
多模态情绪识别研究综述
专知会员服务
170+阅读 · 2020年12月21日
鲁棒模式识别研究进展
专知会员服务
41+阅读 · 2020年8月9日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员