Ensuring that AI agents behave safely and beneficially when interacting with other parties has emerged as one of the central challenges of modern AI safety. While mechanism design, as the theory of designing rules to align individual and collective objectives, can incentivize cooperative behavior, it is still an open question whether it alone is sufficient to maximize LLM agents' social welfare. This work proves that the answer is negative: drawing from incomplete contract theory, we formally show that when contracts cannot distinguish all relevant future contingencies, there is a strictly positive welfare loss that no realistic mechanism can eliminate. We show that prosocial agents, who weigh others' welfare alongside their own, can close this gap and achieve outcomes that are socially superior and individually beneficial. Experimentally, we show that in multi-agent resource-allocation environments and canonical social dilemmas where agents are powered by large language models, prosociality is beneficial. The implication for AI safety is clear: to enable cooperative interactions at scale, designing adequate mechanisms is not sufficient; agents must be built to be intrinsically prosocial.


翻译:确保人工智能智能体在与其它主体交互时表现出安全且有益的行为,已成为现代人工智能安全领域的核心挑战之一。尽管机制设计作为设计规则以协调个体与集体目标的理论,能够激励合作行为,但其本身是否足以最大化大型语言模型智能体的社会总福利仍是一个开放性问题。本研究证明答案是否定的:基于不完全合同理论,我们形式化地证明,当合同无法区分所有相关的未来偶发事件时,存在任何现实机制都无法消除的正福利损失。我们表明,能够权衡他人福祉与自身利益的亲社会智能体可以弥合这一差距,实现社会更优且个体有益的结果。实验方面,我们证明在大语言模型驱动的多智能体资源分配环境及经典社会困境中,亲社会性具有正向作用。这对人工智能安全的启示是明确的:要实现大规模的合作交互,设计充分的机制并不足够;智能体必须被构建为具备内在亲社会性。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
过了个年,AI 圈变天了?但没人告诉你为什么
专知会员服务
19+阅读 · 2月26日
从Idea构想到论文发表:AI for Research全链路综述与实践
专知会员服务
24+阅读 · 2025年7月21日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
33+阅读 · 2025年3月27日
中国AI Agent行业研究报告(二)
专知会员服务
48+阅读 · 2025年3月13日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
推荐!《人与AI协作中的可解释人工智能》320页论文
专知会员服务
138+阅读 · 2023年7月31日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
数学是普通程序员入门人工智能的最大障碍
算法与数据结构
12+阅读 · 2018年7月27日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
过了个年,AI 圈变天了?但没人告诉你为什么
专知会员服务
19+阅读 · 2月26日
从Idea构想到论文发表:AI for Research全链路综述与实践
专知会员服务
24+阅读 · 2025年7月21日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
33+阅读 · 2025年3月27日
中国AI Agent行业研究报告(二)
专知会员服务
48+阅读 · 2025年3月13日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
推荐!《人与AI协作中的可解释人工智能》320页论文
专知会员服务
138+阅读 · 2023年7月31日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员