Human talkers often address listeners with language-comprehension challenges, such as hard-of-hearing or non-native adults, by globally slowing down their speech. However, it remains unclear whether this strategy actually makes speech more intelligible. Here, we take advantage of recent advancements in machine-generated speech allowing more precise control of speech rate in order to systematically examine how targeted speech-rate adjustments may improve comprehension. We first use reverse-correlation experiments to show that the temporal influence of speech rate prior to a target vowel contrast (ex. the tense-lax distinction) in fact manifests in a scissor-like pattern, with opposite effects in early versus late context windows; this pattern is remarkably stable both within individuals and across native L1-English listeners and L2-English listeners with French, Mandarin, and Japanese L1s. Second, we show that this speech rate structure not only facilitates L2 listeners' comprehension of the target vowel contrast, but that native listeners also rely on this pattern in challenging acoustic conditions. Finally, we build a data-driven text-to-speech algorithm that replicates this temporal structure on novel speech sequences. Across a variety of sentences and vowel contrasts, listeners remained unaware that such targeted slowing improved word comprehension. Strikingly, participants instead judged the common strategy of global slowing as clearer, even though it actually increased comprehension errors. Together, these results show that targeted adjustments to speech rate significantly aid intelligibility under challenging conditions, while often going unnoticed. More generally, this paper provides a data-driven methodology to improve the accessibility of machine-generated speech which can be extended to other aspects of speech comprehension and a wide variety of listeners and environments.


翻译:人类说话者常常通过整体放慢语速来应对听者的语言理解困难,例如听力障碍或非母语的成年人。然而,这一策略是否真的能让语音更清晰,目前尚不清楚。本文利用机器生成语音的最新进展,能够更精确地控制语速,从而系统性地研究针对性的语速调整如何改善理解。我们首先通过反向相关实验表明,在目标元音对比(例如紧元音与松元音的区别)之前的语速的时间影响实际上呈现剪刀状模式,即在早期和晚期上下文中具有相反的效果;这一模式在个体内部以及母语为英语的听者和母语为法语、普通话和日语的第二语言英语听者之间都表现出显著的稳定性。其次,我们发现这种语速结构不仅有助于第二语言听者理解目标元音对比,而且母语听者在具有挑战性的声学条件下也依赖这一模式。最后,我们构建了一个数据驱动的文本到语音算法,该算法能在新的语音序列上复制这种时间结构。在多种句子和元音对比中,听者并未意识到这种针对性的放慢语音能改善单词理解。引人注目的是,参与者反而认为常见的整体放慢策略更清晰,尽管实际上它增加了理解错误。综合来看,这些结果表明,在具有挑战性的条件下,针对性的语速调整能显著提高清晰度,且往往不被察觉。更广泛地说,本文提供了一种数据驱动的方法,以提高机器生成语音的可理解性,该方法可扩展到语音理解的其他方面以及各种听者和环境。

0
下载
关闭预览

相关内容

通过采集数据(这里的数据必须满足大、全、细、时),将数据进行组织形成信息流,在做决策或者产品、运营等优化时,根据不同需求对信息流进行提炼总结,从而在数据的支撑下或者指导下进行科学的行动叫做数据驱动。
《多领域任务导向对话的数据驱动策略优化》145页
专知会员服务
14+阅读 · 2024年5月10日
以语音为中心的可信机器学习:隐私、安全和公平综述
专知会员服务
19+阅读 · 2022年12月20日
专知会员服务
16+阅读 · 2021年5月13日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员