Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.


翻译:解决团队冲突不仅需要任务特定的能力,还需要通过社交智能寻找共同点并建立共识。随着人工智能智能体日益在复杂工作中开展协作,它们必须发展协调能力以成为有效的团队成员。然而,我们假设当前智能体缺乏这些能力。为验证此假设,我们提出了CooperBench——一个包含4种编程语言中12个库的600多项协作编码任务的基准测试集。每个任务为两个智能体分配不同的功能特性,这些特性可独立实现,但若缺乏适当协调则可能产生冲突。所有任务均基于真实开源代码库,并配备专家编写的测试用例。通过对最先进的编码智能体进行评估,我们观察到“协调诅咒”现象:与独立完成两项任务相比,智能体协作时的平均成功率降低30%。这与人类团队形成鲜明对比——增加团队成员通常能提升生产力。我们的分析揭示了三个关键问题:(1) 沟通渠道被模糊、时机不当且不准确的信息阻塞;(2) 即使存在有效沟通,智能体仍会偏离其承诺;(3) 智能体常对其他成员的计划和沟通持有错误预期。通过大规模模拟,我们还观察到罕见但有趣的涌现协调行为,包括角色分工、资源分配和协商。本研究提出了一个新颖的协作编码基准测试集,并呼吁从追求个体智能体能力转向发展社交智能。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
人机编队协作的共同认知改变了战争方式
专知会员服务
26+阅读 · 2025年2月5日
《用于个性化人机协作的可解释人工智能》269页
专知会员服务
47+阅读 · 2024年5月7日
梅宏院士:如何构造人工群体智能
专知会员服务
96+阅读 · 2022年5月2日
清华大学:从单体仿生到群体智能
专知
18+阅读 · 2022年2月9日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
常用的模型集成方法介绍:bagging、boosting 、stacking
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
数学是普通程序员入门人工智能的最大障碍
算法与数据结构
12+阅读 · 2018年7月27日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 2月1日
Arxiv
0+阅读 · 1月28日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员