LLM-powered coding agents are reshaping the development paradigm. However, existing evaluation systems, neither traditional tests for humans nor benchmarks for LLMs, fail to capture this shift. They remain focused on well-defined algorithmic problems, which excludes problems where success depends on human-AI collaboration. Such collaborative problems not only require human reasoning to interpret complex contexts and guide solution strategies, but also demand AI efficiency for implementation. To bridge this gap, we introduce HAI-Eval, a unified benchmark designed to measure the synergy of human-AI partnership in coding. HAI-Eval's core innovation is its "Collaboration-Necessary" problem templates, which are intractable for both standalone LLMs and unaided humans, but solvable through effective collaboration. Specifically, HAI-Eval uses 45 templates to dynamically create tasks. It also provides a standardized IDE for human participants and a reproducible toolkit with 450 task instances for LLMs, ensuring an ecologically valid evaluation. We conduct a within-subject study with 45 participants and benchmark their performance against 5 state-of-the-art LLMs under 4 different levels of human intervention. Results show that standalone LLMs and unaided participants achieve poor pass rates (0.67% and 18.89%), human-AI collaboration significantly improves performance to 31.11%. Our analysis reveals an emerging co-reasoning partnership. This finding challenges the traditional human-tool hierarchy by showing that strategic breakthroughs can originate from either humans or AI. HAI-Eval establishes not only a challenging benchmark for next-generation coding agents but also a grounded, scalable framework for assessing core developer competencies in the AI era. Our benchmark and interactive demo will be openly accessible.


翻译:以大型语言模型驱动的编程智能体正在重塑软件开发范式。然而,现有评估体系——无论是面向人类的传统测试,还是针对大语言模型的基准测试——均未能捕捉这一变革。这些评估仍聚焦于定义明确的算法问题,排除了依赖人机协作才能成功的问题场景。此类协作问题既需要人类推理能力以解读复杂情境并引导解决策略,又要求人工智能具备高效的实现能力。为弥合这一差距,我们提出HAI-Eval,这是一个用于测量人机编程协作协同效应的统一基准测试。HAI-Eval的核心创新在于其"协作必需型"问题模板——这类问题对独立运行的大语言模型和未受辅助的人类均难以解决,但通过有效协作即可攻克。具体而言,HAI-Eval采用45个模板动态生成任务,同时为人类参与者提供标准化集成开发环境,并为大语言模型提供包含450个任务实例的可复现工具包,确保生态效度评估。我们开展了一项包含45名参与者的受试者内实验,将其表现与5个最先进的大语言模型在4种不同层级的人工干预下进行对比。结果表明,独立运行的大语言模型和未受辅助的参与者表现不佳(通过率分别为0.67%和18.89%),而人机协作将性能显著提升至31.11%。我们的分析揭示了一种新兴的协同推理伙伴关系。这一发现表明战略突破可源自人类或人工智能的任何一方,从而挑战了传统的人机层级观念。HAI-Eval不仅为下一代编程智能体建立了具有挑战性的基准,更构建了评估人工智能时代开发者核心能力的扎根、可扩展框架。我们的基准测试与交互式演示将开源公开。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
【伯克利博士论文】协同语言智能体
专知会员服务
21+阅读 · 1月10日
《人-AI协作设计:统计量方法》最新77页
专知会员服务
28+阅读 · 2025年5月3日
可解释人工智能(XAI):从内在可解释性到大语言模型
专知会员服务
34+阅读 · 2025年1月20日
【干货书】可解释人工智能(xAI)方法和深度元学习模型
专知会员服务
62+阅读 · 2020年9月13日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【人机融合智能】人机融合智能的现状与展望
产业智能官
12+阅读 · 2020年3月18日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员