Open-vocabulary keyword spotting (OV-KWS) enables personalized device control via arbitrary voice commands. Recently, researchers have explored using audio-text joint embeddings, allowing users to enroll phrases with text, and proposed techniques to disambiguate similar utterances. We find that existing OV-KWS solutions often overly bias the beginning phonemes of an enrollment, causing false triggers when negative enrollment-query-pairs share a prefix (``turn the volume up'' vs. ``turn the volume down''). We trace this to two factors: training data bias and position-biased cross-modal scoring. To address these limitations, we introduce the Partial Overlap Benchmark (POB) with two datasets, POB-Spark and POB-LibriPhrase (POB-LP), containing mismatched audio-text pairs with shared prefixes, and propose Equal-weighting Position Scoring (EPS), a lightweight decision layer. Using EPS alone reduces EER on POB-Spark from 64.4\% to 29.3\% and improves POB-LP accuracy from 87.6\% to 96.8\%, while maintaining performance on LibriPhrase and Google Speech Commands (GSC). With POB data added in training, our work achieves the best POB benchmark results while incurring the least amount of degradation on prior metrics among baselines. This degradation is most pronounced in GSC, which contains only one-word commands. We surface mitigating this trade-off as future work.


翻译:开放词汇关键词检测(OV-KWS)通过任意语音指令实现个性化设备控制。近期,研究者探索了利用音频-文本联合嵌入技术,允许用户通过文本录入短语,并提出了消解相似语音歧义的方法。我们发现,现有OV-KWS方案常对录入词起始音素存在过度偏向,导致负样本录入-查询对共享前缀时(如“调高音量”与“调低音量”)产生误触发。经溯源分析,此问题源于两个因素:训练数据偏见与位置偏置的跨模态评分机制。为应对这些局限,我们提出包含两个数据集(POB-Spark与POB-LibriPhrase/POB-LP)的部分重叠基准(POB),其中包含具有共享前缀的不匹配音频-文本对,并设计了轻量级决策层——等权位置评分(EPS)。仅使用EPS即可将POB-Spark的等错误率从64.4%降至29.3%,并将POB-LP准确率从87.6%提升至96.8%,同时在LibriPhrase和Google语音指令(GSC)数据集上保持原有性能。通过在训练中引入POB数据,我们的工作在POB基准上取得最优结果,且在基线方法中对原有指标的负面影响最小。这种负面影响在仅包含单词语令的GSC数据集中最为显著。我们将缓解此类权衡问题列为未来研究方向。

0
下载
关闭预览

相关内容

零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
【翻译技术速递】测评:免费的术语抽取工具
翻译技术沙龙
139+阅读 · 2019年11月2日
实战分享之专业领域词汇无监督挖掘
PaperWeekly
15+阅读 · 2019年4月16日
相似词查询:玩转腾讯 AI Lab 中文词向量
AINLP
11+阅读 · 2019年2月25日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
学习 | word2vec的前世今生
菜鸟的机器学习
14+阅读 · 2018年3月21日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
相关资讯
【翻译技术速递】测评:免费的术语抽取工具
翻译技术沙龙
139+阅读 · 2019年11月2日
实战分享之专业领域词汇无监督挖掘
PaperWeekly
15+阅读 · 2019年4月16日
相似词查询:玩转腾讯 AI Lab 中文词向量
AINLP
11+阅读 · 2019年2月25日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
学习 | word2vec的前世今生
菜鸟的机器学习
14+阅读 · 2018年3月21日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员