Accurate and robust multimodal speaker identification is essential for multimedia understanding and biometric authentication. However, real-world polyglot scenarios pose two key challenges: speaker-discriminative representations should generalize across languages, and the model should remain reliable when face information is unavailable. To address these challenges, we propose MRAF, a Missing-Token Prompted Reliability-Aware Fusion framework for polyglot speaker identification across complete-modality, missing-face, and cross-lingual scenarios. MRAF represents unavailable face inputs with a learnable missing token instead of fixed zero-valued features, providing a trainable representation of the missing visual state. This design reduces the distribution gap caused by missing inputs and allows subsequent reliability estimation and cross-modal fusion to operate within a unified token space. To adaptively integrate modalities with different reliability, MRAF further introduces a reliability-aware cross-attention fusion module, which estimates face and audio reliability scores, normalizes them into modality weights, and applies these weights to token representations before bidirectional cross-attention. In this way, the model can emphasize reliable modality cues while suppressing unreliable ones. During training, MRAF jointly optimizes multi-branch classification losses, audio-only knowledge distillation, and center loss to improve speaker discrimination and missing-modality robustness. Experiments on the official POLY-SIM 2026 test set demonstrate the effectiveness of the proposed framework. In the final evaluation, MRAF achieves 100% accuracy on P3 and P5, and obtains competitive results on the more challenging missing-face settings P4 and P6. The source code will be released at https://github.com/MSA-LMC/MRAF.


翻译:准确且鲁棒的多模态说话人识别对多媒体理解与生物特征认证至关重要。然而,真实多语种场景面临两大挑战:说话人判别性表征需跨语言泛化,且模型应在面部信息缺失时保持可靠性。为解决这些问题,我们提出MRAF——一种面向完整模态、面部缺失及跨语言场景的缺失标记提示可靠性感知融合框架,用于多语种说话人识别。MRAF采用可学习的缺失标记(而非固定零值特征)表示不可用的面部输入,从而提供对缺失视觉状态的可训练表征。该设计减少了缺失输入导致的分布差异,使后续可靠性估计与跨模态融合能在统一标记空间中进行。为自适应融合不同可靠性的模态,MRAF进一步引入可靠性感知交叉注意力融合模块:该模块估计面部与音频可靠性分数,将其归一化为模态权重,并在双向交叉注意力前将这些权重应用于标记表征。通过这种方式,模型可强化可靠模态线索同时抑制不可靠特征。训练阶段,MRAF联合优化多分支分类损失、仅音频知识蒸馏损失与中心损失,以提升说话人判别性与缺失模态鲁棒性。在官方POLY-SIM 2026测试集上的实验验证了所提框架的有效性。最终评估中,MRAF在P3与P5任务上实现100%准确率,并在更具挑战性的面部缺失场景P4与P6上取得具有竞争力的结果。源代码将发布于https://github.com/MSA-LMC/MRAF。

0
下载
关闭预览

相关内容

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
6+阅读 · 6月21日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
【NTU博士论文】端到端鲁棒自动语音识别的最新进展
专知会员服务
12+阅读 · 2025年10月15日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
鲁棒模式识别研究进展
专知会员服务
41+阅读 · 2020年8月9日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
读者来稿 | 有效遮挡检测的鲁棒人脸识别
计算机视觉战队
19+阅读 · 2019年3月28日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员