Code agents must both reason over long-horizon repository state and obey strict tool-use protocols. In paired Instruct/Thinking checkpoints, these capabilities are complementary but misaligned. The Instruct model is concise and tool-disciplined, whereas the Thinking model offers stronger planning and recovery behavior but often over-deliberates and degrades agent performance. We present CRANE (Constrained Reasoning Injection for Code Agents via Nullspace Editing), a training-free parameter-editing method that treats the Thinking-Instruct delta as a directional pool of candidate reasoning edits for the Instruct backbone. CRANE combines magnitude thresholding to denoise the delta, a Conservative Taylor Gate to retain edits that are jointly beneficial for reasoning transfer and tool-use preservation, and Graduated Sigmoidal Projection to suppress format-critical update directions. By merging paired Instruct and Thinking checkpoints, CRANE delivers strong gains over either individual model while preserving Instruct-level efficiency: on Roo-Eval it achieves pass1 of 66.2% (+19.5%) for Qwen3-30B-A3B and 81.5% (+8.7%) for Qwen3-Next-80B-A3B; on SWE-bench-Verified it resolves up to 14 additional instances at both scales (122/500 and 180/500); and on Terminal-Bench v2 it improves pass1/pass5 by up to 2.3%/7.8%, reaching 7.6%/17.9% and 14.8%/30.3%, respectively, consistently outperforming alternative merging strategies across all three benchmarks.


翻译:代码智能体既要对长期仓库状态进行推理,又要严格遵守工具使用协议。在配对的指令/推理检查点中,这些能力虽互补却存在不一致性:指令模型简洁且遵循工具规范,而推理模型虽具备更强的规划与恢复能力,却常因过度推演而降低智能体性能。本文提出CRANE(通过零空间编辑为代码智能体注入约束推理)——一种免训练的参数量编辑方法,将推理-指令差值视为指令模型骨干的候选推理编辑方向池。CRANE融合了多重技术:通过幅值阈值对差值去噪,采用保守型泰勒门保留同时有益于推理迁移与工具保持的编辑方向,并借助渐进式S型投影抑制破坏格式的关键更新方向。通过融合配对的指令与推理检查点,CRANE在保持指令级效率的同时,相较任一单独模型均取得显著提升:在Roo-Eval上,Qwen3-30B-A3B的pass1达到66.2%(+19.5%),Qwen3-Next-80B-A3B达81.5%(+8.7%);在SWE-bench-Verified上,两种规模模型分别额外解决14个实例(122/500与180/500);在Terminal-Bench v2上,pass1/pass5提升最高达2.3%/7.8%,分别达到7.6%/17.9%与14.8%/30.3%,在全部三个基准测试中持续优于其他融合策略。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 5月18日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
0+阅读 · 13分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员