This work presents the first systematic investigation of speech bias in multilingual MLLMs. We construct and release the BiasInEar dataset, a speech-augmented benchmark based on Global MMLU Lite, spanning English, Chinese, and Korean, balanced by gender and accent, and totaling 70.8 hours ($\approx$4,249 minutes) of speech with 11,200 questions. Using four complementary metrics (accuracy, entropy, APES, and Fleiss' $κ$), we evaluate nine representative models under linguistic (language and accent), demographic (gender), and structural (option order) perturbations. Our findings reveal that MLLMs are relatively robust to demographic factors but highly sensitive to language and option order, suggesting that speech can amplify existing structural biases. Moreover, architectural design and reasoning strategy substantially affect robustness across languages. Overall, this study establishes a unified framework for assessing fairness and robustness in speech-integrated LLMs, bridging the gap between text- and speech-based evaluation. The resources can be found at https://github.com/ntunlplab/BiasInEar.


翻译:本研究首次对多语言MLLM中的语音偏见进行了系统性探究。我们构建并发布了BiasInEar数据集——一个基于Global MMLU Lite的语音增强基准,涵盖英语、中文和韩语,按性别与口音平衡,总计70.8小时(约4,249分钟)的语音数据,包含11,200道问题。通过四项互补指标(准确率、信息熵、APES与Fleiss' $κ$),我们在语言(语种与口音)、人口统计(性别)及结构(选项顺序)扰动下评估了九个代表性模型。研究发现:MLLM对人口统计因素相对稳健,但对语言及选项顺序高度敏感,表明语音可能放大既有结构偏见。此外,架构设计与推理策略显著影响跨语言稳健性。总体而言,本研究建立了评估语音集成LLM公平性与稳健性的统一框架,弥合了基于文本与基于语音的评估之间的鸿沟。相关资源可见于https://github.com/ntunlplab/BiasInEar。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
58+阅读 · 2024年5月28日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月22日
VIP会员
相关资讯
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员