Spoken query retrieval is an important interaction mode in modern information retrieval. However, existing evaluation datasets are often limited to simple queries under constrained noise conditions, making them inadequate for assessing the robustness of spoken query retrieval systems under complex acoustic perturbations. To address this limitation, we present SQuTR, a robustness benchmark for spoken query retrieval that includes a large-scale dataset and a unified evaluation protocol. SQuTR aggregates 37,317 unique queries from six commonly used English and Chinese text retrieval datasets, spanning multiple domains and diverse query types. We synthesize speech using voice profiles from 200 real speakers and mix 17 categories of real-world environmental noise under controlled SNR levels, enabling reproducible robustness evaluation from quiet to highly noisy conditions. Under the unified protocol, we conduct large-scale evaluations on representative cascaded and end-to-end retrieval systems. Experimental results show that retrieval performance decreases as noise increases, with substantially different drops across systems. Even large-scale retrieval models struggle under extreme noise, indicating that robustness remains a critical bottleneck. Overall, SQuTR provides a reproducible testbed for benchmarking and diagnostic analysis, and facilitates future research on robustness in spoken query to text retrieval.


翻译:口语查询检索是现代信息检索中的重要交互模式。然而,现有评估数据集通常局限于受限噪声条件下的简单查询,不足以评估口语查询检索系统在复杂声学扰动下的鲁棒性。为弥补这一不足,我们提出了SQuTR——一个包含大规模数据集和统一评估协议的口语查询检索鲁棒性基准。SQuTR汇集了来自六个常用中英文文本检索数据集的37,317条独特查询,涵盖多领域和多样化的查询类型。我们使用200位真实说话人的语音配置文件合成语音,并在受控信噪比水平下混合17类真实环境噪声,实现了从安静到高度嘈杂条件下可复现的鲁棒性评估。在统一协议下,我们对代表性的级联检索系统和端到端检索系统进行了大规模评估。实验结果表明,检索性能随噪声增加而下降,不同系统的性能下降幅度存在显著差异。即使大规模检索模型在极端噪声下也表现不佳,表明鲁棒性仍是关键瓶颈。总体而言,SQuTR为基准测试和诊断分析提供了可复现的实验平台,并将推动未来口语查询文本检索鲁棒性研究的进展。

0
下载
关闭预览

相关内容

《口语语言模型研究现状:一项全面综述》
专知会员服务
16+阅读 · 2025年4月14日
【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
29+阅读 · 2024年8月26日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
30+阅读 · 2024年3月22日
通过对比学习提高基于知识对话的鲁棒性
专知会员服务
23+阅读 · 2024年1月10日
专知会员服务
26+阅读 · 2021年4月13日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员