The rapid emergence of new entities -- driven by cultural shifts, evolving trends, and personalized user data -- poses a significant challenge for existing Speech Large Language Models (Speech LLMs). While these models excel at general conversational tasks, their static training knowledge limits their ability to recognize domain-specific terms such as contact names, playlists, or technical jargon. Existing solutions primarily rely on prompting, which suffers from poor scalability: as the entity list grows, prompting encounters context window limitations, increased inference latency, and the "lost-in-the-middle" phenomenon. An alternative approach, Generative Error Correction (GEC), attempts to rewrite transcripts via post-processing but frequently suffers from "over-correction", introducing hallucinations of entities that were never spoken. In this work, we introduce LOGIC (Logit-Space Integration for Contextual Biasing), an efficient and robust framework that operates directly in the decoding layer. Unlike prompting, LOGIC decouples context injection from input processing, ensuring constant-time complexity relative to prompt length. Extensive experiments using the Phi-4-MM model across 11 multilingual locales demonstrate that LOGIC achieves an average 9% relative reduction in Entity WER with a negligible 0.30% increase in False Alarm Rate.


翻译:新实体的快速涌现——由文化变迁、趋势演变和个性化用户数据驱动——对现有语音大语言模型构成了重大挑战。尽管这些模型在通用对话任务上表现出色,但其静态训练知识限制了识别领域特定术语(如联系人姓名、播放列表或技术术语)的能力。现有解决方案主要依赖提示方法,但该方法存在可扩展性不足的问题:随着实体列表增长,提示会遭遇上下文窗口限制、推理延迟增加以及“中间丢失”现象。另一种生成式错误修正方法试图通过后处理重写转录文本,但常出现“过度修正”问题,引入从未被说出的实体幻觉。本研究提出LOGIC(面向上下文偏置的Logit空间集成),这是一个直接在解码层运行的高效鲁棒框架。与提示方法不同,LOGIC将上下文注入与输入处理解耦,确保相对于提示长度的恒定时间复杂度。基于Phi-4-MM模型在11个多语言区域进行的广泛实验表明,LOGIC实现了实体词错误率平均相对降低9%,同时误报率仅增加0.30%。

0
下载
关闭预览

相关内容

【LoG2024报告】整合大型语言模型与图神经网络,62页ppt
专知会员服务
50+阅读 · 2024年12月1日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
86+阅读 · 2022年10月29日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员