Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.


翻译:语音大语言模型(SLLMs)已迅速扩展,支持广泛的任务。这些模型通常使用文本提示进行评估,这可能无法反映用户通过语音交互的真实场景。为弥补这一差距,我们引入了DoWhatISay(DOWIS),一个包含人类录制的语音和书面提示的多语言数据集,旨在与任何现有基准配对,以便在语音指令条件下对SLLMs进行真实评估。该数据集涵盖9个任务和11种语言,为每个任务-语言对提供了五种风格下的10个提示变体。利用DOWIS,我们对最先进的SLLMs进行了基准测试,分析了提示模态、风格、语言和任务类型之间的相互作用。结果表明,文本提示始终优于语音提示,尤其是在低资源和跨语言设置中。仅在具有语音输出的任务中,语音提示才能缩小差距,这突显了在SLLM评估中基于语音提示的必要性。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《使用生成式大语言模型进行多语言事件提取》最新85页
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
如何提示?浙大最新《大型语言模型提示框架》综述
专知会员服务
83+阅读 · 2023年11月23日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
无人机与反无人机系统(书籍)
专知会员服务
11+阅读 · 今天6:45
美陆军2026条令:安全与机动支援
专知会员服务
2+阅读 · 今天5:49
技术、多域威慑与海上战争(报告)
专知会员服务
8+阅读 · 4月13日
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
5+阅读 · 4月13日
人工智能及其在海军行动中的整合(综述)
专知会员服务
7+阅读 · 4月13日
相关VIP内容
《使用生成式大语言模型进行多语言事件提取》最新85页
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
如何提示?浙大最新《大型语言模型提示框架》综述
专知会员服务
83+阅读 · 2023年11月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员