Large Language Models (LLMs) can generate persuasive influence strategies that shift cooperative behavior in multi-agent populations, but a critical question remains: does the resulting cooperation reflect genuine prosocial alignment, or does it mask erosion of agent autonomy, epistemic integrity, and distributional fairness? We introduce Constitutional Multi-Agent Governance (CMAG), a two-stage framework that interposes between an LLM policy compiler and a networked agent population, combining hard constraint filtering with soft penalized-utility optimization that balances cooperation potential against manipulation risk and autonomy pressure. We propose the Ethical Cooperation Score (ECS), a multiplicative composite of cooperation, autonomy, integrity, and fairness that penalizes cooperation achieved through manipulative means. In experiments on scale-free networks of 80 agents under adversarial conditions (70% violating candidates), we benchmark three regimes: full CMAG, naive filtering, and unconstrained optimization. While unconstrained optimization achieves the highest raw cooperation (0.873), it yields the lowest ECS (0.645) due to severe autonomy erosion (0.867) and fairness degradation (0.888). CMAG attains an ECS of 0.741, a 14.9% improvement, while preserving autonomy at 0.985 and integrity at 0.995, with only modest cooperation reduction to 0.770. The naive ablation (ECS = 0.733) confirms that hard constraints alone are insufficient. Pareto analysis shows CMAG dominates the cooperation-autonomy trade-off space, and governance reduces hub-periphery exposure disparities by over 60%. These findings establish that cooperation is not inherently desirable without governance: constitutional constraints are necessary to ensure that LLM-mediated influence produces ethically stable outcomes rather than manipulative equilibria.


翻译:大型语言模型(LLM)能够生成具有说服力的影响策略,从而改变多智能体群体中的合作行为,但一个关键问题仍然存在:由此产生的合作是否反映了真正的亲社会对齐,还是掩盖了智能体自主性、认知完整性以及分配公平性的侵蚀?我们提出了宪法多智能体治理(CMAG),这是一个介于LLM策略编译器与网络化智能体群体之间的两阶段框架,它结合了硬约束过滤与软惩罚效用优化,以平衡合作潜力与操纵风险及自主性压力。我们提出了伦理合作分数(ECS),这是一个由合作性、自主性、完整性和公平性相乘构成的复合指标,它对通过操纵手段实现的合作进行惩罚。在对80个智能体组成的无标度网络在对抗性条件(70%违规候选策略)下进行的实验中,我们评估了三种机制:完整CMAG、朴素过滤和无约束优化。虽然无约束优化实现了最高的原始合作率(0.873),但由于严重的自主性侵蚀(0.867)和公平性下降(0.888),其ECS最低(0.645)。CMAG实现了0.741的ECS,提升了14.9%,同时将自主性保持在0.985,完整性保持在0.995,而合作率仅适度降低至0.770。朴素消融实验(ECS = 0.733)证实,仅靠硬约束是不够的。帕累托分析表明CMAG主导了合作-自主性权衡空间,并且治理将中心-边缘节点的暴露差异降低了60%以上。这些发现表明,没有治理的合作本身并非必然可取:宪法约束对于确保LLM介导的影响产生伦理上稳定的结果而非操纵性均衡是必要的。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
23+阅读 · 4月25日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
LLMs与生成式智能体模拟:复杂系统研究的新范式
专知会员服务
28+阅读 · 2025年6月15日
可信赖LLM智能体的研究综述:威胁与应对措施
专知会员服务
36+阅读 · 2025年3月17日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
7+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员