语义与敏感度：探究语义回忆对长上下文代码推理的影响 (Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning) - 专知论文

会员服务 ·

0

代码 · 上下文 · 操作 · 长上下文 · 操作语义 ·

Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning

翻译：语义与敏感度：探究语义回忆对长上下文代码推理的影响

Adam Štorek,Mukur Gupta,Samira Hajizadeh,Prashast Srivastava,Suman Jana

Large language models (LLMs) are increasingly deployed for understanding large codebases, but whether they understand operational semantics of long code context or rely on pattern matching shortcuts remains unclear. We distinguish between lexical recall (retrieving code verbatim) and semantic recall (understanding operational semantics). Evaluating 10 state-of-the-art LLMs, we find that while frontier models achieve near-perfect, position-independent lexical recall, semantic recall degrades severely when code is centrally positioned in long contexts. We introduce semantic recall sensitivity to measure whether tasks require understanding of code's operational semantics vs. permit pattern matching shortcuts. Through a novel counterfactual measurement method, we show that models rely heavily on pattern matching shortcuts to solve existing code understanding benchmarks. We propose a new task SemTrace, which achieves high semantic recall sensitivity through unpredictable operations; LLMs' accuracy exhibits severe positional effects, with median accuracy drops of 92.73% versus CRUXEval's 53.36% as the relevant code snippet approaches the middle of the input code context. Our findings suggest current evaluations substantially underestimate semantic recall failures in long context code understanding.

翻译：大型语言模型（LLMs）正越来越多地被用于理解大型代码库，但它们究竟是在理解长代码上下文中的操作语义，还是依赖于模式匹配的捷径，目前尚不明确。我们区分了词汇回忆（逐字检索代码）和语义回忆（理解操作语义）。通过对10个前沿LLMs进行评估，我们发现，尽管前沿模型实现了近乎完美且与位置无关的词汇回忆，但当代码位于长上下文的中心位置时，语义回忆会严重下降。我们引入了语义回忆敏感度这一指标，用于衡量任务是需要理解代码的操作语义，还是允许模式匹配的捷径。通过一种新颖的反事实测量方法，我们表明模型严重依赖模式匹配的捷径来解决现有的代码理解基准测试。我们提出了一个新任务SemTrace，它通过不可预测的操作实现了高语义回忆敏感度；LLMs的准确性表现出严重的位置效应，当相关代码片段接近输入代码上下文的中间位置时，其准确率中位数下降了92.73%，而CRUXEval的下降幅度为53.36%。我们的研究结果表明，当前的评估方法严重低估了长上下文代码理解中语义回忆的失败情况。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

大型语言模型推理引擎的综述：优化与效率的视角

大型语言模型推理引擎的综述：优化与效率的视角

专知会员服务

21+阅读 · 2025年5月13日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

68+阅读 · 2024年6月4日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

【AAAI2024】基于对比上下文学习的自定义语言模型响应

【AAAI2024】基于对比上下文学习的自定义语言模型响应

专知会员服务

26+阅读 · 2024年2月1日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

企业多层次信息技术匹配及其对敏捷性的影响机理

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Robustness and Reasoning Fidelity of Large Language Models in Long-Context Code Question Answering

Arxiv

0+阅读 · 2月19日

Long-Tail Knowledge in Large Language Models: Taxonomy, Mechanisms, Interventions and Implications

Arxiv

0+阅读 · 2月18日

The Limits of Long-Context Reasoning in Automated Bug Fixing

Arxiv

0+阅读 · 2月17日

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Arxiv

0+阅读 · 2月11日

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Rethinking Code Complexity Through the Lens of Large Language Models

Arxiv

0+阅读 · 2月8日

Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States

Arxiv

0+阅读 · 2月4日

Context Dependence and Reliability in Autoregressive Language Models

Arxiv

0+阅读 · 2月1日

Can Vision-Language Models Handle Long-Context Code? An Empirical Study on Visual Compression

Arxiv

0+阅读 · 1月31日

CoRe: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks

Arxiv

0+阅读 · 1月17日

VIP会员

文章信息

相关主题

相关VIP内容

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

大型语言模型推理引擎的综述：优化与效率的视角

大型语言模型推理引擎的综述：优化与效率的视角

专知会员服务

21+阅读 · 2025年5月13日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

68+阅读 · 2024年6月4日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

【AAAI2024】基于对比上下文学习的自定义语言模型响应

【AAAI2024】基于对比上下文学习的自定义语言模型响应

专知会员服务

26+阅读 · 2024年2月1日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

相关论文

Robustness and Reasoning Fidelity of Large Language Models in Long-Context Code Question Answering

Arxiv

0+阅读 · 2月19日

Long-Tail Knowledge in Large Language Models: Taxonomy, Mechanisms, Interventions and Implications

Arxiv

0+阅读 · 2月18日

The Limits of Long-Context Reasoning in Automated Bug Fixing

Arxiv

0+阅读 · 2月17日

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Arxiv

0+阅读 · 2月11日

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Rethinking Code Complexity Through the Lens of Large Language Models

Arxiv

0+阅读 · 2月8日

Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States

Arxiv

0+阅读 · 2月4日

Context Dependence and Reliability in Autoregressive Language Models

Arxiv

0+阅读 · 2月1日

Can Vision-Language Models Handle Long-Context Code? An Empirical Study on Visual Compression

Arxiv

0+阅读 · 1月31日

CoRe: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks

Arxiv

0+阅读 · 1月17日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

企业多层次信息技术匹配及其对敏捷性的影响机理

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员