Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI - 专知论文

会员服务 ·

0

设计 · AI · Agent · INTERACT · 收缩 ·

Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI

翻译：机制设计不足以为继：面向合作型人工智能的亲社会智能体

Xuanqiang Angelo Huang,Charlie Tharas,Samuele Marro,Van Q. Truong,Bernhard Schölkopf,Emanuele La Malfa,Zhijing Jin

from arxiv, 42 pages

Ensuring that AI agents behave safely and beneficially when interacting with other parties has emerged as one of the central challenges of modern AI safety. While mechanism design, as the theory of designing rules to align individual and collective objectives, can incentivize cooperative behavior, it is still an open question whether it alone is sufficient to maximize LLM agents' social welfare. This work proves that the answer is negative: drawing from incomplete contract theory, we formally show that when contracts cannot distinguish all relevant future contingencies, there is a strictly positive welfare loss that no realistic mechanism can eliminate. We show that prosocial agents, who weigh others' welfare alongside their own, can close this gap and achieve outcomes that are socially superior and individually beneficial. Experimentally, we show that in multi-agent resource-allocation environments and canonical social dilemmas where agents are powered by large language models, prosociality is beneficial. The implication for AI safety is clear: to enable cooperative interactions at scale, designing adequate mechanisms is not sufficient; agents must be built to be intrinsically prosocial.

翻译：确保人工智能智能体在与其它主体交互时表现出安全且有益的行为，已成为现代人工智能安全领域的核心挑战之一。尽管机制设计作为设计规则以协调个体与集体目标的理论，能够激励合作行为，但其本身是否足以最大化大型语言模型智能体的社会总福利仍是一个开放性问题。本研究证明答案是否定的：基于不完全合同理论，我们形式化地证明，当合同无法区分所有相关的未来偶发事件时，存在任何现实机制都无法消除的正福利损失。我们表明，能够权衡他人福祉与自身利益的亲社会智能体可以弥合这一差距，实现社会更优且个体有益的结果。实验方面，我们证明在大语言模型驱动的多智能体资源分配环境及经典社会困境中，亲社会性具有正向作用。这对人工智能安全的启示是明确的：要实现大规模的合作交互，设计充分的机制并不足够；智能体必须被构建为具备内在亲社会性。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

46+阅读 · 1月8日

AI智能体基础设施

AI智能体基础设施

专知会员服务

44+阅读 · 2025年7月12日

《多智能体强化学习中的机制设计优化研究》103页

《多智能体强化学习中的机制设计优化研究》103页

专知会员服务

34+阅读 · 2025年5月31日

《在单智能体与多智能体AI系统中融入人类合理性》100页

《在单智能体与多智能体AI系统中融入人类合理性》100页

专知会员服务

32+阅读 · 2025年5月10日

《多智能体强化学习中机制设计的优化》103页

《多智能体强化学习中机制设计的优化》103页

专知会员服务

32+阅读 · 2025年5月3日

AI智能体面临的威胁：关键安全挑战与未来路径综述

AI智能体面临的威胁：关键安全挑战与未来路径综述

专知会员服务

53+阅读 · 2024年6月7日

《人工智能辅助决策面临的三大挑战》

《人工智能辅助决策面临的三大挑战》

专知会员服务

87+阅读 · 2023年12月15日

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

专知会员服务

161+阅读 · 2023年8月23日

《结合机器人行为以实现安全、智能的执行》

《结合机器人行为以实现安全、智能的执行》

专知会员服务

17+阅读 · 2023年7月4日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

31+阅读 · 2022年6月16日

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

机器之心

15+阅读 · 2022年11月26日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

99+阅读 · 2022年3月7日

【人机融合智能】人机融合智能的现状与展望

【人机融合智能】人机融合智能的现状与展望

产业智能官

12+阅读 · 2020年3月18日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【混合智能】人机混合智能的哲学思考

【混合智能】人机混合智能的哲学思考

产业智能官

12+阅读 · 2018年10月28日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Agents All the Way Down; A Methodology for Building Custom AI Agents from Substrate to Production

Arxiv

0+阅读 · 6月10日

Toward Human-Centered Multi-Agent Systems: Integrating Cognition, Culture, Values, and Cooperation in AI Agents

Arxiv

0+阅读 · 6月6日

Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI

Arxiv

0+阅读 · 6月2日

Solipsistic Superintelligence is Unlikely to be Cooperative

Arxiv

0+阅读 · 6月2日

Towards a Science of AI Agent Reliability

Arxiv

0+阅读 · 6月2日

Multi-Agent Teams Hold Experts Back

Arxiv

0+阅读 · 5月28日

Who Does Your AI Work For? Designing Conversational Agents as Digital Fiduciaries

Arxiv

0+阅读 · 5月27日

Towards Shared Embodied Intelligence in Humanoid Robots through Optimization Development and Testing of the Human Aware ergoCub Robot

Arxiv

0+阅读 · 5月26日

How to Steer Your Multi-Agent System: Human-LLM Collaborative Planning

Arxiv

0+阅读 · 5月21日

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

8+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

46+阅读 · 1月8日

AI智能体基础设施

AI智能体基础设施

专知会员服务

44+阅读 · 2025年7月12日

《多智能体强化学习中的机制设计优化研究》103页

《多智能体强化学习中的机制设计优化研究》103页

专知会员服务

34+阅读 · 2025年5月31日

《在单智能体与多智能体AI系统中融入人类合理性》100页

《在单智能体与多智能体AI系统中融入人类合理性》100页

专知会员服务

32+阅读 · 2025年5月10日

《多智能体强化学习中机制设计的优化》103页

《多智能体强化学习中机制设计的优化》103页

专知会员服务

32+阅读 · 2025年5月3日

AI智能体面临的威胁：关键安全挑战与未来路径综述

AI智能体面临的威胁：关键安全挑战与未来路径综述

专知会员服务

53+阅读 · 2024年6月7日

《人工智能辅助决策面临的三大挑战》

《人工智能辅助决策面临的三大挑战》

专知会员服务

87+阅读 · 2023年12月15日

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

专知会员服务

161+阅读 · 2023年8月23日

《结合机器人行为以实现安全、智能的执行》

《结合机器人行为以实现安全、智能的执行》

专知会员服务

17+阅读 · 2023年7月4日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

31+阅读 · 2022年6月16日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

机器之心

15+阅读 · 2022年11月26日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

99+阅读 · 2022年3月7日

【人机融合智能】人机融合智能的现状与展望

【人机融合智能】人机融合智能的现状与展望

产业智能官

12+阅读 · 2020年3月18日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【混合智能】人机混合智能的哲学思考

【混合智能】人机混合智能的哲学思考

产业智能官

12+阅读 · 2018年10月28日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Agents All the Way Down; A Methodology for Building Custom AI Agents from Substrate to Production

Arxiv

0+阅读 · 6月10日

Toward Human-Centered Multi-Agent Systems: Integrating Cognition, Culture, Values, and Cooperation in AI Agents

Arxiv

0+阅读 · 6月6日

Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI

Arxiv

0+阅读 · 6月2日

Solipsistic Superintelligence is Unlikely to be Cooperative

Arxiv

0+阅读 · 6月2日

Towards a Science of AI Agent Reliability

Arxiv

0+阅读 · 6月2日

Multi-Agent Teams Hold Experts Back

Arxiv

0+阅读 · 5月28日

Who Does Your AI Work For? Designing Conversational Agents as Digital Fiduciaries

Arxiv

0+阅读 · 5月27日

Towards Shared Embodied Intelligence in Humanoid Robots through Optimization Development and Testing of the Human Aware ergoCub Robot

Arxiv

0+阅读 · 5月26日

How to Steer Your Multi-Agent System: Human-LLM Collaborative Planning

Arxiv

0+阅读 · 5月21日

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Arxiv

0+阅读 · 5月12日

相关基金

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员