Modern coding scaffolds turn LLMs into capable software agents, but their ability to follow scaffold-specified instructions remains under-examined, especially when constraints are heterogeneous and persist across interactions. To fill this gap, we introduce OctoBench, which benchmarks scaffold-aware instruction following in repository-grounded agentic coding. OctoBench includes 34 environments and 217 tasks instantiated under three scaffold types, and is paired with 7,098 objective checklist items. To disentangle solving the task from following the rules, we provide an automated observation-and-scoring toolkit that captures full trajectories and performs fine-grained checks. Experiments on eight representative models reveal a systematic gap between task-solving and scaffold-aware compliance, underscoring the need for training and evaluation that explicitly targets heterogeneous instruction following. We release the benchmark to support reproducible benchmarking and to accelerate the development of more scaffold-aware coding agents.


翻译:现代编程脚手架将大型语言模型转变为强大的软件智能体,但其遵循脚手架指定指令的能力尚未得到充分检验,尤其是在约束条件具有异质性且贯穿多轮交互的情况下。为填补这一空白,我们提出了OctoBench,这是一个用于评估仓库基础智能体编程中脚手架感知指令遵循能力的基准测试。OctoBench包含基于三种脚手架类型实例化的34个环境与217项任务,并配有7,098项客观检查清单条目。为区分任务解决与规则遵循,我们提供了自动化的观测与评分工具包,该工具包能捕获完整交互轨迹并执行细粒度检查。在八个代表性模型上的实验揭示了任务解决能力与脚手架感知合规性之间存在系统性差距,这凸显了需要针对异质指令遵循进行专门训练与评估。我们公开此基准测试以支持可复现的评估,并加速更具脚手架感知能力的编程智能体的开发。

0
下载
关闭预览

相关内容

人们为了让计算机解决各种棘手的问题,使用编程语言 编写程序代码并通过计算机运算得到最终结果的过程。
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
国家标准《物联网 群智感知 技术架构》(征求 意见稿)
走向通用虚拟智能体
专知会员服务
74+阅读 · 2023年11月26日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
77+阅读 · 2023年9月6日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
【CVPR2022】OakInk:理解手-物体交互的大规模知识库
专知会员服务
15+阅读 · 2022年4月6日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
用PyTorch做物体检测和追踪
AI研习社
12+阅读 · 2019年1月6日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员