Ensuring that AI agents behave safely and beneficially when interacting with other parties has emerged as one of the central challenges of modern AI safety. While mechanism design, as the theory of designing rules to align individual and collective objectives, can incentivize cooperative behavior, it is still an open question whether it alone is sufficient to maximize LLM agents' social welfare. This work proves that the answer is negative: drawing from incomplete contract theory, we formally show that when contracts cannot distinguish all relevant future contingencies, there is a strictly positive welfare loss that no realistic mechanism can eliminate. We show that prosocial agents, who weigh others' welfare alongside their own, can close this gap and achieve outcomes that are socially superior and individually beneficial. Experimentally, we show that in multi-agent resource-allocation environments and canonical social dilemmas where agents are powered by large language models, prosociality is beneficial. The implication for AI safety is clear: to enable cooperative interactions at scale, designing adequate mechanisms is not sufficient; agents must be built to be intrinsically prosocial.


翻译:确保AI智能体在与他人互动时行为安全且有益,已成为现代AI安全的核心挑战之一。虽然机制设计作为设计规则以协调个体与集体目标的理论,能够激励合作行为,但仅凭它是否足以最大化LLM智能体的社会福利,仍是一个悬而未决的问题。本研究证明答案是否定的:借鉴不完全契约理论,我们正式证明,当契约无法区分所有相关的未来偶发事件时,将存在严格为正的福利损失,而任何现实机制都无法消除这种损失。我们表明,亲社会智能体——即在关注自身福利的同时也权衡他人福利的智能体——能够弥补这一差距,实现既对社会有利又对个体有益的成果。实验上,我们在基于大语言模型驱动的多智能体资源分配环境及经典社会困境中证明,亲社会性是有益的。这对AI安全的启示很明确:要实现大规模合作互动,设计充分的机制并不足够;必须将智能体构建为内在地具有亲社会性。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
迈向智能体系统规模化的科学
专知会员服务
22+阅读 · 2025年12月12日
《在单智能体与多智能体AI系统中融入人类合理性》100页
《多智能体强化学习中机制设计的优化》103页
专知会员服务
31+阅读 · 2025年5月3日
多智能体协作机制:大语言模型综述
专知会员服务
70+阅读 · 2025年3月4日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
【人机融合智能】人机融合智能的现状与展望
产业智能官
12+阅读 · 2020年3月18日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员