Lost in Transcription: How Speech-to-Text Errors Derail Code Understanding - 专知论文

会员服务 ·

0

代码 · 转录 · 代码理解 · 语音识别 · 工具 ·

Lost in Transcription: How Speech-to-Text Errors Derail Code Understanding

翻译：迷失在转录中：语音转文本错误如何阻碍代码理解

Jayant Havare,Ashish Mittal,Srikanth Tamilselvam,Ganesh Ramakrishnan

Code understanding is a foundational capability in software engineering tools and developer workflows. However, most existing systems are designed for English-speaking users interacting via keyboards, which limits accessibility in multilingual and voice-first settings, particularly in regions like India. Voice-based interfaces offer a more inclusive modality, but spoken queries involving code present unique challenges due to the presence of non-standard English usage, domain-specific vocabulary, and custom identifiers such as variable and function names, often combined with code-mixed expressions. In this work, we develop a multilingual speech-driven framework for code understanding that accepts spoken queries in a user native language, transcribes them using Automatic Speech Recognition (ASR), applies code-aware ASR output refinement using Large Language Models (LLMs), and interfaces with code models to perform tasks such as code question answering and code retrieval through benchmarks such as CodeSearchNet, CoRNStack, and CodeQA. Focusing on four widely spoken Indic languages and English, we systematically characterize how transcription errors impact downstream task performance. We also identified key failure modes in ASR for code and demonstrated that LLM-guided refinement significantly improves performance across both transcription and code understanding stages. Our findings underscore the need for code-sensitive adaptations in speech interfaces and offer a practical solution for building robust, multilingual voice-driven programming tools.

翻译：代码理解是软件工程工具与开发者工作流中的基础能力。然而，现有系统大多为使用键盘交互的英语用户设计，这限制了其在多语言及语音优先场景下的可访问性，尤其在印度等地区。基于语音的界面提供了更具包容性的交互方式，但涉及代码的口语查询因非标准英语用法、领域特定词汇以及变量名和函数名等自定义标识符（常与代码混合表达结合）的存在而面临独特挑战。本研究开发了一个用于代码理解的多语言语音驱动框架，该框架接受用户母语的口语查询，使用自动语音识别（ASR）进行转录，通过大型语言模型（LLMs）进行代码感知的ASR输出优化，并与代码模型对接以执行代码问答和代码检索等任务（基于CodeSearchNet、CoRNStack和CodeQA等基准测试）。聚焦于四种广泛使用的印度语言及英语，我们系统性地分析了转录错误如何影响下游任务性能。同时，我们识别了ASR处理代码时的关键失效模式，并证明LLM引导的优化能显著提升转录和代码理解阶段的性能。我们的研究结果强调了语音界面进行代码敏感适配的必要性，并为构建鲁棒的多语言语音驱动编程工具提供了实用解决方案。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

专知会员服务

13+阅读 · 1月28日

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

17+阅读 · 2025年12月8日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

不可错过！斯坦福《语音语言处理》技术课程

不可错过！斯坦福《语音语言处理》技术课程

专知会员服务

41+阅读 · 2022年5月2日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【NLP| 推荐文章】语言语音处理（Speech and Language Processing(3rd ed.draft)）

专知会员服务

15+阅读 · 2019年11月24日

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

专知会员服务

20+阅读 · 2019年11月24日

【ICDAR2019教程】计算机视觉中的文本形式，Vision and Language: the text modality in computer vision

【ICDAR2019教程】计算机视觉中的文本形式，Vision and Language: the text modality in computer vision

专知会员服务

25+阅读 · 2019年9月21日

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

深度学习自然语言处理

13+阅读 · 2020年4月6日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

Linux中国

10+阅读 · 2019年6月22日

转行学 AI，“别让那些技术培训坑了你...”

转行学 AI，“别让那些技术培训坑了你...”

CSDN

11+阅读 · 2019年5月6日

【语音识别】从入门到精通——最全干货大合集！

【语音识别】从入门到精通——最全干货大合集！

专知

20+阅读 · 2018年11月5日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

AI研习社

24+阅读 · 2018年1月31日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Mind the GAP: Text Safety Does Not Transfer to Tool-Call Safety in LLM Agents

Arxiv

0+阅读 · 2月18日

Comment Traps: How Defective Commented-out Code Augment Defects in AI-Assisted Code Generation

Arxiv

0+阅读 · 2月18日

CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis

Arxiv

0+阅读 · 2月15日

Understanding Codebase like a Professional! Human-AI Collaboration for Code Comprehension

Arxiv

0+阅读 · 2月12日

Do Not Treat Code as Natural Language: Implications for Repository-Level Code Generation and Beyond

Arxiv

0+阅读 · 2月12日

Towards an Understanding of Context Utilization in Code Intelligence

Arxiv

0+阅读 · 2月7日

code_transformed: The Influence of Large Language Models on Code

Arxiv

0+阅读 · 2月6日

Lost in Speech: Benchmarking, Evaluation, and Parsing of Spoken Code-Switching Beyond Standard UD Assumptions

Arxiv

0+阅读 · 2月6日

CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning

Arxiv

0+阅读 · 2月3日

Programming Language Confusion: When Code LLMs Can't Keep their Languages Straight

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

专知会员服务

13+阅读 · 1月28日

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

17+阅读 · 2025年12月8日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

不可错过！斯坦福《语音语言处理》技术课程

不可错过！斯坦福《语音语言处理》技术课程

专知会员服务

41+阅读 · 2022年5月2日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【NLP| 推荐文章】语言语音处理（Speech and Language Processing(3rd ed.draft)）

专知会员服务

15+阅读 · 2019年11月24日

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

专知会员服务

20+阅读 · 2019年11月24日

【ICDAR2019教程】计算机视觉中的文本形式，Vision and Language: the text modality in computer vision

【ICDAR2019教程】计算机视觉中的文本形式，Vision and Language: the text modality in computer vision

专知会员服务

25+阅读 · 2019年9月21日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

深度学习自然语言处理

13+阅读 · 2020年4月6日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

Linux中国

10+阅读 · 2019年6月22日

转行学 AI，“别让那些技术培训坑了你...”

转行学 AI，“别让那些技术培训坑了你...”

CSDN

11+阅读 · 2019年5月6日

【语音识别】从入门到精通——最全干货大合集！

【语音识别】从入门到精通——最全干货大合集！

专知

20+阅读 · 2018年11月5日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

AI研习社

24+阅读 · 2018年1月31日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

相关论文

Mind the GAP: Text Safety Does Not Transfer to Tool-Call Safety in LLM Agents

Arxiv

0+阅读 · 2月18日

Comment Traps: How Defective Commented-out Code Augment Defects in AI-Assisted Code Generation

Arxiv

0+阅读 · 2月18日

CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis

Arxiv

0+阅读 · 2月15日

Understanding Codebase like a Professional! Human-AI Collaboration for Code Comprehension

Arxiv

0+阅读 · 2月12日

Do Not Treat Code as Natural Language: Implications for Repository-Level Code Generation and Beyond

Arxiv

0+阅读 · 2月12日

Towards an Understanding of Context Utilization in Code Intelligence

Arxiv

0+阅读 · 2月7日

code_transformed: The Influence of Large Language Models on Code

Arxiv

0+阅读 · 2月6日

Lost in Speech: Benchmarking, Evaluation, and Parsing of Spoken Code-Switching Beyond Standard UD Assumptions

Arxiv

0+阅读 · 2月6日

CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning

Arxiv

0+阅读 · 2月3日

Programming Language Confusion: When Code LLMs Can't Keep their Languages Straight

Arxiv

0+阅读 · 2月2日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员