Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI - 专知论文

会员服务 ·

0

设计 · AI · Agent · INTERACT · 收缩 ·

Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI

翻译：机制设计不足为道：面向合作型人工智能的亲社会智能体

Xuanqiang Angelo Huang,Charlie Tharas,Samuele Marro,Van Q. Truong,Bernhard Schölkopf,Emanuele La Malfa,Zhijing Jin

from arxiv, 42 pages

Ensuring that AI agents behave safely and beneficially when interacting with other parties has emerged as one of the central challenges of modern AI safety. While mechanism design, as the theory of designing rules to align individual and collective objectives, can incentivize cooperative behavior, it is still an open question whether it alone is sufficient to maximize LLM agents' social welfare. This work proves that the answer is negative: drawing from incomplete contract theory, we formally show that when contracts cannot distinguish all relevant future contingencies, there is a strictly positive welfare loss that no realistic mechanism can eliminate. We show that prosocial agents, who weigh others' welfare alongside their own, can close this gap and achieve outcomes that are socially superior and individually beneficial. Experimentally, we show that in multi-agent resource-allocation environments and canonical social dilemmas where agents are powered by large language models, prosociality is beneficial. The implication for AI safety is clear: to enable cooperative interactions at scale, designing adequate mechanisms is not sufficient; agents must be built to be intrinsically prosocial.

翻译：确保AI智能体在与他人互动时行为安全且有益，已成为现代AI安全的核心挑战之一。虽然机制设计作为设计规则以协调个体与集体目标的理论，能够激励合作行为，但仅凭它是否足以最大化LLM智能体的社会福利，仍是一个悬而未决的问题。本研究证明答案是否定的：借鉴不完全契约理论，我们正式证明，当契约无法区分所有相关的未来偶发事件时，将存在严格为正的福利损失，而任何现实机制都无法消除这种损失。我们表明，亲社会智能体——即在关注自身福利的同时也权衡他人福利的智能体——能够弥补这一差距，实现既对社会有利又对个体有益的成果。实验上，我们在基于大语言模型驱动的多智能体资源分配环境及经典社会困境中证明，亲社会性是有益的。这对AI安全的启示很明确：要实现大规模合作互动，设计充分的机制并不足够；必须将智能体构建为内在地具有亲社会性。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

43+阅读 · 1月8日

迈向智能体系统规模化的科学

迈向智能体系统规模化的科学

专知会员服务

22+阅读 · 2025年12月12日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

32+阅读 · 2025年9月27日

《在单智能体与多智能体AI系统中融入人类合理性》100页

《在单智能体与多智能体AI系统中融入人类合理性》100页

专知会员服务

32+阅读 · 2025年5月10日

《多智能体强化学习中机制设计的优化》103页

《多智能体强化学习中机制设计的优化》103页

专知会员服务

31+阅读 · 2025年5月3日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

多智能体协作机制：大语言模型综述

多智能体协作机制：大语言模型综述

专知会员服务

70+阅读 · 2025年3月4日

AI Agent，大模型时代重要落地方向, 42页ppt

AI Agent，大模型时代重要落地方向, 42页ppt

专知会员服务

291+阅读 · 2023年10月12日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

机器之心

15+阅读 · 2022年11月26日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

【人机融合智能】人机融合智能的现状与展望

【人机融合智能】人机融合智能的现状与展望

产业智能官

12+阅读 · 2020年3月18日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【混合智能】人机混合智能的哲学思考

【混合智能】人机混合智能的哲学思考

产业智能官

12+阅读 · 2018年10月28日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于三级供应链的质量与需求不对称下制造商激励契约设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Agents All the Way Down; A Methodology for Building Custom AI Agents from Substrate to Production

Arxiv

0+阅读 · 6月10日

Toward Human-Centered Multi-Agent Systems: Integrating Cognition, Culture, Values, and Cooperation in AI Agents

Arxiv

0+阅读 · 6月6日

Who Does Your AI Work For? Designing Conversational Agents as Digital Fiduciaries

Arxiv

0+阅读 · 5月27日

DIG to Heal: Scaling General-purpose Agent Collaboration via Explainable Dynamic Decision Paths

Arxiv

0+阅读 · 5月27日

COOP$^2$: Defining, Observing, and Repairing Cooperation in LLM Multi-Agent Systems

Arxiv

0+阅读 · 5月27日

MaMa: A Game-Theoretic Approach for Designing Safe Agentic Systems

Arxiv

0+阅读 · 5月22日

Measuring and mitigating overreliance to build human-compatible AI

Arxiv

0+阅读 · 5月20日

Speculative Interaction Agents: Building Real-Time Agents with Asynchronous I/O and Speculative Tool Calling

Arxiv

0+阅读 · 5月14日

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Arxiv

0+阅读 · 5月12日

Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 今天15:02

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 今天15:00

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 今天14:30

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

43+阅读 · 1月8日

迈向智能体系统规模化的科学

迈向智能体系统规模化的科学

专知会员服务

22+阅读 · 2025年12月12日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

32+阅读 · 2025年9月27日

《在单智能体与多智能体AI系统中融入人类合理性》100页

《在单智能体与多智能体AI系统中融入人类合理性》100页

专知会员服务

32+阅读 · 2025年5月10日

《多智能体强化学习中机制设计的优化》103页

《多智能体强化学习中机制设计的优化》103页

专知会员服务

31+阅读 · 2025年5月3日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

多智能体协作机制：大语言模型综述

多智能体协作机制：大语言模型综述

专知会员服务

70+阅读 · 2025年3月4日

AI Agent，大模型时代重要落地方向, 42页ppt

AI Agent，大模型时代重要落地方向, 42页ppt

专知会员服务

291+阅读 · 2023年10月12日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

机器之心

15+阅读 · 2022年11月26日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

【人机融合智能】人机融合智能的现状与展望

【人机融合智能】人机融合智能的现状与展望

产业智能官

12+阅读 · 2020年3月18日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【混合智能】人机混合智能的哲学思考

【混合智能】人机混合智能的哲学思考

产业智能官

12+阅读 · 2018年10月28日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Agents All the Way Down; A Methodology for Building Custom AI Agents from Substrate to Production

Arxiv

0+阅读 · 6月10日

Toward Human-Centered Multi-Agent Systems: Integrating Cognition, Culture, Values, and Cooperation in AI Agents

Arxiv

0+阅读 · 6月6日

Who Does Your AI Work For? Designing Conversational Agents as Digital Fiduciaries

Arxiv

0+阅读 · 5月27日

DIG to Heal: Scaling General-purpose Agent Collaboration via Explainable Dynamic Decision Paths

Arxiv

0+阅读 · 5月27日

COOP$^2$: Defining, Observing, and Repairing Cooperation in LLM Multi-Agent Systems

Arxiv

0+阅读 · 5月27日

MaMa: A Game-Theoretic Approach for Designing Safe Agentic Systems

Arxiv

0+阅读 · 5月22日

Measuring and mitigating overreliance to build human-compatible AI

Arxiv

0+阅读 · 5月20日

Speculative Interaction Agents: Building Real-Time Agents with Asynchronous I/O and Speculative Tool Calling

Arxiv

0+阅读 · 5月14日

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Arxiv

0+阅读 · 5月12日

Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI

Arxiv

0+阅读 · 5月8日

相关基金

基于三级供应链的质量与需求不对称下制造商激励契约设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员