Reinforcement Learning from Compiler and Language Server Feedback - 专知论文

会员服务 ·

0

编译器 · 服务器 · 反馈驱动 · 编程 · 监督 ·

Reinforcement Learning from Compiler and Language Server Feedback

翻译：编译器与语言服务器反馈驱动的强化学习

Yifan Zhang,Lanser Contributors

from arxiv, Project Page: https://github.com/yifanzhang-pro/lanser-cli

Coding agents fail when text-level guesses outrun program facts: they hallucinate APIs, drift to the wrong symbol, and apply edits without evidence that the workspace remains valid. Compilers, type checkers, and language servers already compute the missing supervision signal, in the form of diagnostics, symbol resolution, type information, references, and refactoring preconditions, but expose it through interfaces designed for human-driven IDEs rather than learning loops. We introduce Reinforcement Learning from Compiler and Language Server Feedback (RLCSF) together with Lanser-CLI, a CLI-first orchestration layer that exposes this signal to agents and CI. RLCSF treats each tool interaction as a transition and computes a shaped process reward from deterministic changes in diagnostics, selector confidence, and edit safety. Lanser-CLI, in turn, converts ephemeral LSP sessions into replayable Analysis Bundles with pinned environment metadata and stable content hashes. Its core mechanisms are robust selectors that go beyond file:line:col, deterministic bundle normalization, preview-first guarded mutations, and a reward functional whose potential-based component is replayable under frozen snapshots. We formalize determinism for canonical bundles and prove that componentwise-improving transitions receive non-negative reward in the undiscounted setting. Together, these pieces yield a practical substrate for process supervision of coding agents.

翻译：编程智能体在文本层面的猜测超越程序事实时会失败：它们会虚构API、漂移至错误符号，并在无工作区有效性证据的情况下应用编辑。编译器、类型检查器及语言服务器已以诊断信息、符号解析、类型信息、引用及重构前置条件的形式计算出缺失的监督信号，但仅通过面向人类集成开发环境而非学习循环的接口暴露这些信息。我们提出编译器与语言服务器反馈驱动的强化学习（RLCSF），并配套开发Lanser-CLI——一个将此类信号暴露给智能体与持续集成的命令行优先编排层。RLCSF将每次工具交互视为一次转移，并根据诊断信息、选择器置信度及编辑安全性的确定性变化计算具有形状的过程奖励。Lanser-CLI则将瞬时的LSP会话转化为可重放的分析包，其中包含固定环境元数据与稳定内容哈希。其核心机制包括：超越file:line:col的鲁棒选择器、确定性包标准化、预览优先的防护变异，以及基于势函数的奖励组件（该组件在冻结快照下可重放）。我们形式化了规范包的确定性，并证明在无折扣设置下，逐分量改进的转移将获得非负奖励。这些组件共同为编程智能体的过程监督提供了实践基础。

0

相关内容

编译器

编译器（Compiler），是一种计算机程序，它会将用某种编程语言写成的源代码（原始语言），转换成另一种编程语言（目标语言）。

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

26+阅读 · 3月8日

深度强化学习与模仿学习导论

深度强化学习与模仿学习导论

专知会员服务

25+阅读 · 2025年12月10日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

24+阅读 · 2025年10月22日

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

专知会员服务

20+阅读 · 2023年12月9日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

81+阅读 · 2021年5月23日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

133+阅读 · 2020年5月14日

【北航】深度学习编译器综述|The Deep Learning Compiler: A Comprehensive Survey

【北航】深度学习编译器综述|The Deep Learning Compiler: A Comprehensive Survey

专知会员服务

38+阅读 · 2020年2月11日

TensorFlow深度学习，从线性回归到强化学习的深度学习（TensorFlow for Deep Learning From Linear Regression to Reinforcement Learning），附页256页pdf

TensorFlow深度学习，从线性回归到强化学习的深度学习（TensorFlow for Deep Learning From Linear Regression to Reinforcement Learning），附页256页pdf

专知会员服务

47+阅读 · 2020年1月1日

【CCF优秀博士学位论文奖-2019】数据驱动的编译器测试与调试若干技术研究，北京大学陈俊洁

【CCF优秀博士学位论文奖-2019】数据驱动的编译器测试与调试若干技术研究，北京大学陈俊洁

专知会员服务

11+阅读 · 2019年11月8日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

量子位

13+阅读 · 2019年7月16日

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

机器之心

23+阅读 · 2019年4月13日

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

产业智能官

14+阅读 · 2019年2月5日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

专知

27+阅读 · 2017年12月17日

干货｜深度强化学习在面向任务的对话管理中的应用

干货｜深度强化学习在面向任务的对话管理中的应用

全球人工智能

13+阅读 · 2017年9月14日

技术 | 强化学习入门以及代码实现

技术 | 强化学习入门以及代码实现

AI100

51+阅读 · 2017年8月26日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

Erase to Improve: Erasable Reinforcement Learning for Search-Augmented LLMs

Arxiv

0+阅读 · 4月20日

From Imitation to Discrimination: Progressive Curriculum Learning for Robust Web Navigation

Arxiv

0+阅读 · 4月14日

Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning

Arxiv

0+阅读 · 4月2日

View-oriented Conversation Compiler for Agent Trace Analysis

Arxiv

0+阅读 · 4月1日

TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization

Arxiv

0+阅读 · 3月26日

Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

Arxiv

0+阅读 · 3月23日

Demand-Driven Context: A Methodology for Building Enterprise Knowledge Bases Through Agent Failure

Arxiv

0+阅读 · 3月14日

Boosting deep Reinforcement Learning using pretraining with Logical Options

Arxiv

0+阅读 · 3月6日

Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning

Arxiv

0+阅读 · 3月2日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 2月28日

VIP会员

文章信息

相关主题

最新内容

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

6+阅读 · 7月24日

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

6+阅读 · 7月24日

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

3+阅读 · 7月24日

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

2+阅读 · 7月24日

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

2+阅读 · 7月24日

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

1+阅读 · 7月24日

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

5+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

4+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

7+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

11+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

5+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

11+阅读 · 7月22日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

26+阅读 · 3月8日

深度强化学习与模仿学习导论

深度强化学习与模仿学习导论

专知会员服务

25+阅读 · 2025年12月10日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

24+阅读 · 2025年10月22日

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

专知会员服务

20+阅读 · 2023年12月9日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

81+阅读 · 2021年5月23日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

133+阅读 · 2020年5月14日

【北航】深度学习编译器综述|The Deep Learning Compiler: A Comprehensive Survey

【北航】深度学习编译器综述|The Deep Learning Compiler: A Comprehensive Survey

专知会员服务

38+阅读 · 2020年2月11日

TensorFlow深度学习，从线性回归到强化学习的深度学习（TensorFlow for Deep Learning From Linear Regression to Reinforcement Learning），附页256页pdf

TensorFlow深度学习，从线性回归到强化学习的深度学习（TensorFlow for Deep Learning From Linear Regression to Reinforcement Learning），附页256页pdf

专知会员服务

47+阅读 · 2020年1月1日

【CCF优秀博士学位论文奖-2019】数据驱动的编译器测试与调试若干技术研究，北京大学陈俊洁

【CCF优秀博士学位论文奖-2019】数据驱动的编译器测试与调试若干技术研究，北京大学陈俊洁

专知会员服务

11+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

乌克兰纵深打击如何重塑俄罗斯的战略选择

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

相关资讯

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

量子位

13+阅读 · 2019年7月16日

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

机器之心

23+阅读 · 2019年4月13日

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

产业智能官

14+阅读 · 2019年2月5日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

专知

27+阅读 · 2017年12月17日

干货｜深度强化学习在面向任务的对话管理中的应用

干货｜深度强化学习在面向任务的对话管理中的应用

全球人工智能

13+阅读 · 2017年9月14日

技术 | 强化学习入门以及代码实现

技术 | 强化学习入门以及代码实现

AI100

51+阅读 · 2017年8月26日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Erase to Improve: Erasable Reinforcement Learning for Search-Augmented LLMs

Arxiv

0+阅读 · 4月20日

From Imitation to Discrimination: Progressive Curriculum Learning for Robust Web Navigation

Arxiv

0+阅读 · 4月14日

Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning

Arxiv

0+阅读 · 4月2日

View-oriented Conversation Compiler for Agent Trace Analysis

Arxiv

0+阅读 · 4月1日

TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization

Arxiv

0+阅读 · 3月26日

Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

Arxiv

0+阅读 · 3月23日

Demand-Driven Context: A Methodology for Building Enterprise Knowledge Bases Through Agent Failure

Arxiv

0+阅读 · 3月14日

Boosting deep Reinforcement Learning using pretraining with Logical Options

Arxiv

0+阅读 · 3月6日

Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning

Arxiv

0+阅读 · 3月2日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 2月28日

相关基金

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员