Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.


翻译:解决团队冲突不仅需要特定任务能力,还需具备寻找共同点并建立共识的社交智能。随着AI智能体日益在复杂工作中开展协作,它们必须发展协调能力以成为有效的团队成员。然而我们假设当前智能体缺乏这些能力。为验证此假设,我们推出CooperBench——一个包含4种编程语言、12个代码库中600余项协作编码任务的基准测试集。每项任务为两个智能体分配可独立实现但若缺乏适当协调可能产生冲突的不同功能特性。所有任务均基于真实开源代码库构建,并配备专家编写的测试用例。通过对前沿编码智能体的评估,我们观察到协调困境现象:智能体协同工作时的平均成功率比独立执行两项任务低30%。这与人类团队形成鲜明对比——增加团队成员通常能提升生产力。我们的分析揭示三个关键问题:(1)沟通渠道被模糊、时机不当且不准确的信息堵塞;(2)即使存在有效沟通,智能体仍会偏离其承诺;(3)智能体常对他人计划与沟通持有错误预期。通过大规模模拟,我们还观察到罕见但有趣的涌现协调行为,包括角色分工、资源分配与协商机制。本研究提出了协作编码的新基准,并呼吁从追求个体智能体能力转向发展社交智能。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
19+阅读 · 2025年5月8日
人机编队协作的共同认知改变了战争方式
专知会员服务
26+阅读 · 2025年2月5日
《用于个性化人机协作的可解释人工智能》269页
专知会员服务
47+阅读 · 2024年5月7日
梅宏院士:如何构造人工群体智能
专知会员服务
96+阅读 · 2022年5月2日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
数学是普通程序员入门人工智能的最大障碍
算法与数据结构
12+阅读 · 2018年7月27日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 2月1日
Arxiv
0+阅读 · 1月28日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员