Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks - 专知论文

会员服务 ·

0

Agent · 代码 · 全 · OpenClaw · 收缩 ·

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

翻译：暂无翻译

Mengyu Zheng,Kai Han,Boxun Li,Haiyang Xu,Yuchuan Tian,Wei He,Hang Zhou,Jianyuan Guo,Hailin Hu,Lin Ma,Chao Xu,Guohao Dai,Lixue Xia,Yunchao Wei,Yunhe Wang,Yu Wang

General-purpose agents such as OpenClaw are increasingly used as autonomous tool users, but their coding ability is difficult to measure under SWE-bench: a generic agent does not by itself satisfy the clean Docker workspace, patch, and prediction contract required for scoring. We introduce Claw-SWE-Bench, a multilingual SWE-bench-style benchmark and adapter protocol that makes heterogeneous agent harnesses, or claws, comparable under fair settings including a fixed prompt, runtime budget, workspace contract, patch extraction procedure, and evaluator. The full benchmark contains 350 GitHub issue-resolution instances across 8 languages and 43 repositories, drawn from SWE-bench-Multilingual and SWE-bench-Verified-Mini after future-commit cleanup. We also release Claw-SWE-Bench Lite for faster validation, which is an 80-instance subset selected by a cost-aware, rank-aware procedure over 17 calibration columns. On the full benchmark, OpenClaw with a minimal direct-diff adapter scores only $19.1\%$ Pass@1, whereas the full adapter reaches $73.4\%$ with the same GLM 5.1 backbone, showing that adapter design is essential for enabling OpenClaw-style harnesses to perform coding tasks effectively. Across an OpenClaw $\times$ nine-model sweep and a five-claw $\times$ two-model sweep, model choice changes Pass@1 by $29.4$ pp and harness choice by $27.4$ pp under fixed models; systems with similar accuracy can differ substantially in total API cost. Claw-SWE-Bench therefore treats harness and cost accounting as first-class axes of SWE-style coding-agent evaluation, providing both a full benchmark and a low-cost reference set for reproducible comparison. The data is available at https://github.com/opensquilla/claw-swe-bench and https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.

翻译：暂无翻译

0

相关内容

Agent

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

21+阅读 · 5月28日

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

11+阅读 · 4月26日

《ClaudeCode源码深度研究报告（增强完整版）》，下载链接

《ClaudeCode源码深度研究报告（增强完整版）》，下载链接

专知会员服务

40+阅读 · 4月1日

AI原生组织：OpenClaw推动组织形态重塑，47页pdf

AI原生组织：OpenClaw推动组织形态重塑，47页pdf

专知会员服务

26+阅读 · 3月27日

OpenClaw完全指南：从入门到精通｜附629页PDF文件下载

OpenClaw完全指南：从入门到精通｜附629页PDF文件下载

专知会员服务

94+阅读 · 3月14日

清华大学：OpenClaw发展研究1.0报告｜附75页PDF文件下载

清华大学：OpenClaw发展研究1.0报告｜附75页PDF文件下载

专知会员服务

122+阅读 · 3月6日

MMClaw 接入飞书实战：权限、长连接等设置（也适用于OpenClaw）

MMClaw 接入飞书实战：权限、长连接等设置（也适用于OpenClaw）

专知会员服务

15+阅读 · 2月14日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

40+阅读 · 2025年10月17日

Agent有望定义万亿劳动力市场

Agent有望定义万亿劳动力市场

专知会员服务

19+阅读 · 2025年6月11日

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

专知会员服务

38+阅读 · 2024年2月6日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

流程/过程挖掘（Process Mining）最新综述

流程/过程挖掘（Process Mining）最新综述

PaperWeekly

23+阅读 · 2022年9月19日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

AINLP

25+阅读 · 2019年8月21日

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

AI前线

46+阅读 · 2019年2月25日

【计划排程】工业互联网正确打开方式系列（十三）：排程调度优化

【计划排程】工业互联网正确打开方式系列（十三）：排程调度优化

产业智能官

24+阅读 · 2018年9月12日

Jupyter Notebook的三大短板，都被这个新工具补齐了

Jupyter Notebook的三大短板，都被这个新工具补齐了

量子位

71+阅读 · 2018年9月10日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

氯盐在损伤和开裂混凝土中的传输机理及多尺度本构模型

国家自然科学基金

1+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents

Arxiv

0+阅读 · 6月12日

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

Arxiv

0+阅读 · 6月10日

Understanding and mitigating the risks of OpenClaw for non-technical users: A practical guide with Skill

Arxiv

0+阅读 · 6月9日

Benchmarking Open-Ended Multi-Agent Coordination in Language Agents

Arxiv

0+阅读 · 6月6日

RealClawBench: Live OpenClaw Benchmarks from Real Developer-Agent Sessions

Arxiv

0+阅读 · 6月2日

Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

Arxiv

0+阅读 · 5月25日

ProofAgent Harness: Open Infrastructure for Adversarial Evaluation of AI Agents

Arxiv

0+阅读 · 5月22日

Overeager Coding Agents: Measuring Out-of-Scope Actions on Benign Tasks

Arxiv

0+阅读 · 5月18日

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

Arxiv

0+阅读 · 5月11日

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

3+阅读 · 今天8:18

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

3+阅读 · 今天7:39

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

7+阅读 · 今天7:33

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

3+阅读 · 今天7:28

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

4+阅读 · 今天7:14

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

18+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

7+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

8+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

8+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

8+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

6+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

13+阅读 · 6月14日

相关VIP内容

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

21+阅读 · 5月28日

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

11+阅读 · 4月26日

《ClaudeCode源码深度研究报告（增强完整版）》，下载链接

《ClaudeCode源码深度研究报告（增强完整版）》，下载链接

专知会员服务

40+阅读 · 4月1日

AI原生组织：OpenClaw推动组织形态重塑，47页pdf

AI原生组织：OpenClaw推动组织形态重塑，47页pdf

专知会员服务

26+阅读 · 3月27日

OpenClaw完全指南：从入门到精通｜附629页PDF文件下载

OpenClaw完全指南：从入门到精通｜附629页PDF文件下载

专知会员服务

94+阅读 · 3月14日

清华大学：OpenClaw发展研究1.0报告｜附75页PDF文件下载

清华大学：OpenClaw发展研究1.0报告｜附75页PDF文件下载

专知会员服务

122+阅读 · 3月6日

MMClaw 接入飞书实战：权限、长连接等设置（也适用于OpenClaw）

MMClaw 接入飞书实战：权限、长连接等设置（也适用于OpenClaw）

专知会员服务

15+阅读 · 2月14日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

40+阅读 · 2025年10月17日

Agent有望定义万亿劳动力市场

Agent有望定义万亿劳动力市场

专知会员服务

19+阅读 · 2025年6月11日

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

专知会员服务

38+阅读 · 2024年2月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《通过小型无人机系统将情报能力“作战化”》

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

《通用大语言模型：无人机指挥与控制接口》最新40页

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

流程/过程挖掘（Process Mining）最新综述

流程/过程挖掘（Process Mining）最新综述

PaperWeekly

23+阅读 · 2022年9月19日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

AINLP

25+阅读 · 2019年8月21日

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

AI前线

46+阅读 · 2019年2月25日

【计划排程】工业互联网正确打开方式系列（十三）：排程调度优化

【计划排程】工业互联网正确打开方式系列（十三）：排程调度优化

产业智能官

24+阅读 · 2018年9月12日

Jupyter Notebook的三大短板，都被这个新工具补齐了

Jupyter Notebook的三大短板，都被这个新工具补齐了

量子位

71+阅读 · 2018年9月10日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

相关论文

Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents

Arxiv

0+阅读 · 6月12日

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

Arxiv

0+阅读 · 6月10日

Understanding and mitigating the risks of OpenClaw for non-technical users: A practical guide with Skill

Arxiv

0+阅读 · 6月9日

Benchmarking Open-Ended Multi-Agent Coordination in Language Agents

Arxiv

0+阅读 · 6月6日

RealClawBench: Live OpenClaw Benchmarks from Real Developer-Agent Sessions

Arxiv

0+阅读 · 6月2日

Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

Arxiv

0+阅读 · 5月25日

ProofAgent Harness: Open Infrastructure for Adversarial Evaluation of AI Agents

Arxiv

0+阅读 · 5月22日

Overeager Coding Agents: Measuring Out-of-Scope Actions on Benign Tasks

Arxiv

0+阅读 · 5月18日

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

Arxiv

0+阅读 · 5月11日

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Arxiv

0+阅读 · 5月7日

相关基金

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

氯盐在损伤和开裂混凝土中的传输机理及多尺度本构模型

国家自然科学基金

1+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员