Audio-visual quality assessment (AVQA) is essential for streaming, teleconferencing, and immersive media. In realistic streaming scenarios, distortions are often asymmetric, where one modality may be severely degraded while the other remains clean. Still, most contemporary AVQA metrics treat audio and video as equally reliable, causing confidence-unaware fusion to emphasize unreliable signals. This paper proposes MCM-AVQA, a multimodal confidence-aware AVQA framework that explicitly estimates modality-specific confidence and injects it into a dedicated audio-visual mixer for cross-modal attention. The Audio-Visual Mixer utilizes frame-level, confidence-guided channel attention to gate fusion, modulating feature interaction between modalities so that high-confidence streams dominate while unreliable inputs are suppressed, preserving temporal degradation patterns. A multi-head visual confidence estimator turns frame-level artifact probabilities into temporally smoothed, clip-level visual confidence scores, while an audio confidence module derives confidence from speech-quality cues without requiring a clean reference. Experiments on multiple AVQA benchmarks show that MCM-AVQA, and specifically its confidence-guided Audio-Visual Mixer, improve correlation with human mean opinion scores and yield more interpretable behavior under real-world asymmetric audio-visual distortions.


翻译:音视频质量评估(AVQA)对流媒体、远程会议和沉浸式媒体至关重要。在实际流媒体场景中,失真往往呈现非对称性:一种模态可能严重降质,而另一种模态保持清晰。然而,当前大多数AVQA指标将音频与视频视为同等可靠,这种非置信度感知的融合方式会导致不可靠信号被过度强调。本文提出MCM-AVQA——一种多模态置信度感知的AVQA框架,该框架显式估计各模态的特定置信度,并将其注入专用的音视频混合器以实现跨模态注意力机制。音视频混合器利用帧级别、由置信度引导的通道注意力门控融合过程,通过调节模态间的特征交互,使得高置信度流主导融合结果而抑制不可靠输入,同时保持时序退化模式。多头视觉置信度估计器将帧级伪影概率转化为经时序平滑处理的片段级视觉置信度分数,而音频置信度模块则基于语音质量线索推导置信度,无需纯净参考信号。在多个AVQA基准上的实验表明,MCM-AVQA及其置信度引导的音视频混合器能显著提升与人类平均意见分数的相关性,并在真实世界非对称音视频失真条件下展现出更强的可解释性行为。

0
下载
关闭预览

相关内容

音视频大数据基础模型全面综述
专知会员服务
9+阅读 · 5月7日
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
视频质量评价研究综述
专知会员服务
27+阅读 · 2023年10月10日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
专知会员服务
68+阅读 · 2021年10月15日
专知会员服务
34+阅读 · 2021年9月29日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
专家报告 | 个性化图像美学评价
中国图象图形学报
14+阅读 · 2020年7月15日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月3日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
音视频大数据基础模型全面综述
专知会员服务
9+阅读 · 5月7日
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
视频质量评价研究综述
专知会员服务
27+阅读 · 2023年10月10日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
专知会员服务
68+阅读 · 2021年10月15日
专知会员服务
34+阅读 · 2021年9月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员