Multi-agent LLM ensembles can converge on coordinated, socially harmful equilibria. This paper advances an experimental framework for evaluating Institutional AI, our system-level approach to AI alignment that reframes alignment from preference engineering in agent-space to mechanism design in institution-space. Central to this approach is the governance graph, a public, immutable manifest that declares legal states, transitions, sanctions, and restorative paths; an Oracle/Controller runtime interprets this manifest, attaching enforceable consequences to evidence of coordination while recording a cryptographically keyed, append-only governance log for audit and provenance. We apply the Institutional AI framework to govern the Cournot collusion case documented by prior work and compare three regimes: Ungoverned (baseline incentives from the structure of the Cournot market), Constitutional (a prompt-only policy-as-prompt prohibition implemented as a fixed written anti-collusion constitution, and Institutional (governance-graph-based). Across six model configurations including cross-provider pairs (N=90 runs/condition), the Institutional regime produces large reductions in collusion: mean tier falls from 3.1 to 1.8 (Cohen's d=1.28), and severe-collusion incidence drops from 50% to 5.6%. The prompt-only Constitutional baseline yields no reliable improvement, illustrating that declarative prohibitions do not bind under optimisation pressure. These results suggest that multi-agent alignment may benefit from being framed as an institutional design problem, where governance graphs can provide a tractable abstraction for alignment-relevant collective behavior.


翻译:多智能体LLM集成系统可能收敛于协调一致、对社会有害的均衡状态。本文提出一个评估"制度性人工智能"的实验框架,这是一种系统层面的AI对齐方法,将对齐问题从智能体空间中的偏好工程重新定义为制度空间中的机制设计。该方法的核心理念是治理图——一份公开、不可篡改的声明文件,用于规定合法状态、状态转移、制裁措施及恢复路径;由预言机/控制器运行时解释该声明文件,为协调行为的证据附加可执行的后果,同时记录加密密钥、仅追加的治理日志以供审计和溯源。我们将制度性人工智能框架应用于治理先前研究记录的古诺合谋案例,并比较三种制度:无治理(古诺市场结构产生的基础激励)、宪章治理(仅通过提示实现的"政策即提示"禁令,体现为固定的书面反合谋宪章)和制度治理(基于治理图)。在包含跨供应商配对的六种模型配置中(每个条件N=90次运行),制度治理显著降低了合谋水平:平均层级从3.1降至1.8(Cohen's d=1.28),严重合谋发生率从50%降至5.6%。仅使用提示的宪章治理基线未产生可靠改善,表明声明性禁令在优化压力下不具备约束力。这些结果表明,将多智能体对齐问题构建为制度设计问题可能更为有效,其中治理图可为对齐相关的集体行为提供可处理的抽象框架。

0
下载
关闭预览

相关内容

制度是包括为社会生活提供稳定性和意义的强制性、规范性和文化认同性要素所构成的社会活动和资源。
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
19+阅读 · 2025年5月8日
可信赖LLM智能体的研究综述:威胁与应对措施
专知会员服务
36+阅读 · 2025年3月17日
多智能体协作机制:大语言模型综述
专知会员服务
67+阅读 · 2025年3月4日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
多智能体协同决策方法研究
专知会员服务
133+阅读 · 2022年12月15日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
19+阅读 · 2025年5月8日
可信赖LLM智能体的研究综述:威胁与应对措施
专知会员服务
36+阅读 · 2025年3月17日
多智能体协作机制:大语言模型综述
专知会员服务
67+阅读 · 2025年3月4日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
多智能体协同决策方法研究
专知会员服务
133+阅读 · 2022年12月15日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员