Massive Open-Vocabulary Keyword Spotting - 专知论文

会员服务 ·

0

系统 · 关键词检测 · 识别 · 语音识别 · 识别系统 ·

Massive Open-Vocabulary Keyword Spotting

翻译：大规模开放词汇关键词检测

Leonor Barreiros,Raul Monteiro,Afonso Mendes,Gonçalo M. Correia

from arxiv, Accepted to Interspeech 2026

Automatic speech recognition systems have been shown to under-perform when it comes to transcribing words rarely seen in the training data, namely specialized terminology. Open-vocabulary keyword spotting, combined with contextual biasing, has been shown to mitigate this issue. However, existing systems can only handle glossaries of a few hundred terms without becoming an infeasible bottleneck. We propose a system that stores features with a memory footprint up to 128 times smaller than a comparable baseline and allows users to process massive databases while remaining open-vocabulary. Without fine-tuning the speech recognition model, our system achieves a comparable entity recall as uncompressed solutions, even in languages not seen during training.

翻译：自动语音识别系统在转录训练数据中罕见词汇（即专业术语）时表现出性能不足。开放词汇关键词检测结合上下文偏差已被证明可缓解此问题。然而，现有系统仅能处理数百个术语的词汇表，否则将成为不可行的瓶颈。我们提出一种系统，其存储特征的记忆占用比同类基线方案小128倍，允许用户在处理大规模数据库的同时保持开放词汇特性。无需微调语音识别模型，我们的系统在实体召回率上即可达到与未压缩方案相当的水平，甚至在训练中未见过的语言上也是如此。

0

相关内容

零训练开放词汇语义分割综述

零训练开放词汇语义分割综述

专知会员服务

11+阅读 · 2025年5月31日

【NeurIPS2024】无需3D数据的开放词汇单目3D物体检测模型训练

【NeurIPS2024】无需3D数据的开放词汇单目3D物体检测模型训练

专知会员服务

17+阅读 · 2024年11月26日

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

专知会员服务

14+阅读 · 2024年5月18日

重磅！复旦大学自然语言处理实验室《大规模语言模型·从理论到实践》网络初版发布，297页pdf

重磅！复旦大学自然语言处理实验室《大规模语言模型·从理论到实践》网络初版发布，297页pdf

专知会员服务

251+阅读 · 2023年9月11日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

【CVPR 2022】基于视觉-语言验证和迭代推理的视觉定位,Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation

【CVPR 2022】基于视觉-语言验证和迭代推理的视觉定位,Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation

专知会员服务

12+阅读 · 2022年3月19日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

上百种预训练中文词向量：Chinese-Word-Vectors

上百种预训练中文词向量：Chinese-Word-Vectors

AINLP

23+阅读 · 2019年2月26日

NLP Chinese Corpus：大规模中文自然语言处理语料

NLP Chinese Corpus：大规模中文自然语言处理语料

PaperWeekly

14+阅读 · 2019年2月18日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

大数据技术

16+阅读 · 2019年1月15日

800万中文词，腾讯AI Lab开源大规模NLP数据集

800万中文词，腾讯AI Lab开源大规模NLP数据集

黑龙江大学自然语言处理实验室

10+阅读 · 2018年10月26日

100+中文词向量，总有一款适合你

100+中文词向量，总有一款适合你

专知

12+阅读 · 2018年5月13日

赛尔原创 | 开放域中文知识图谱《大词林》

赛尔原创 | 开放域中文知识图谱《大词林》

哈工大SCIR

71+阅读 · 2018年4月16日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report

Arxiv

0+阅读 · 6月18日

Personalized Keyword Spotting for User-Defined Keywords Leveraging Text-Independent Speaker Verification

Arxiv

0+阅读 · 6月18日

OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report

Arxiv

0+阅读 · 6月16日

Learning Fine-Grained Correspondence with Cross-Perspective Perception for Open-Vocabulary 6D Object Pose Estimation

Arxiv

0+阅读 · 6月15日

OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages

Arxiv

0+阅读 · 6月8日

Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs

Arxiv

0+阅读 · 5月24日

Towards Open World Sound Event Detection

Arxiv

0+阅读 · 5月21日

Effective User-defined Keyword Spotting with Dual-stage Matching, Multi-modal Enrollment, and Continual Adaptation

Arxiv

0+阅读 · 5月21日

A Calculus-Based Framework for Determining Vocabulary Size in End-to-End ASR

Arxiv

0+阅读 · 5月14日

Towards Open World Sound Event Detection

Arxiv

0+阅读 · 5月5日

VIP会员

文章信息

相关主题

关键词检测

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

零训练开放词汇语义分割综述

零训练开放词汇语义分割综述

专知会员服务

11+阅读 · 2025年5月31日

【NeurIPS2024】无需3D数据的开放词汇单目3D物体检测模型训练

【NeurIPS2024】无需3D数据的开放词汇单目3D物体检测模型训练

专知会员服务

17+阅读 · 2024年11月26日

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

专知会员服务

14+阅读 · 2024年5月18日

重磅！复旦大学自然语言处理实验室《大规模语言模型·从理论到实践》网络初版发布，297页pdf

重磅！复旦大学自然语言处理实验室《大规模语言模型·从理论到实践》网络初版发布，297页pdf

专知会员服务

251+阅读 · 2023年9月11日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

【CVPR 2022】基于视觉-语言验证和迭代推理的视觉定位,Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation

【CVPR 2022】基于视觉-语言验证和迭代推理的视觉定位,Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation

专知会员服务

12+阅读 · 2022年3月19日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

上百种预训练中文词向量：Chinese-Word-Vectors

上百种预训练中文词向量：Chinese-Word-Vectors

AINLP

23+阅读 · 2019年2月26日

NLP Chinese Corpus：大规模中文自然语言处理语料

NLP Chinese Corpus：大规模中文自然语言处理语料

PaperWeekly

14+阅读 · 2019年2月18日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

大数据技术

16+阅读 · 2019年1月15日

800万中文词，腾讯AI Lab开源大规模NLP数据集

800万中文词，腾讯AI Lab开源大规模NLP数据集

黑龙江大学自然语言处理实验室

10+阅读 · 2018年10月26日

100+中文词向量，总有一款适合你

100+中文词向量，总有一款适合你

专知

12+阅读 · 2018年5月13日

赛尔原创 | 开放域中文知识图谱《大词林》

赛尔原创 | 开放域中文知识图谱《大词林》

哈工大SCIR

71+阅读 · 2018年4月16日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

相关论文

OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report

Arxiv

0+阅读 · 6月18日

Personalized Keyword Spotting for User-Defined Keywords Leveraging Text-Independent Speaker Verification

Arxiv

0+阅读 · 6月18日

OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report

Arxiv

0+阅读 · 6月16日

Learning Fine-Grained Correspondence with Cross-Perspective Perception for Open-Vocabulary 6D Object Pose Estimation

Arxiv

0+阅读 · 6月15日

OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages

Arxiv

0+阅读 · 6月8日

Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs

Arxiv

0+阅读 · 5月24日

Towards Open World Sound Event Detection

Arxiv

0+阅读 · 5月21日

Effective User-defined Keyword Spotting with Dual-stage Matching, Multi-modal Enrollment, and Continual Adaptation

Arxiv

0+阅读 · 5月21日

A Calculus-Based Framework for Determining Vocabulary Size in End-to-End ASR

Arxiv

0+阅读 · 5月14日

Towards Open World Sound Event Detection

Arxiv

0+阅读 · 5月5日

相关基金

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员