Collusion among autonomous agents poses a critical security threat in embodied multi-agent systems (MAS), where coordinated behaviors can deviate from global objectives and lead to real-world consequences. Existing defenses, primarily based on identity control or post-hoc behavior analysis, are insufficient to address such threats in embodied settings due to delayed feedback and noisy observations in physical environments, which make behavioral deviations difficult to detect accurately and in a timely manner. To address this challenge, we propose a mutagenic incentive intervention approach that mitigates collusion by reshaping agents' payoff structures. By rewarding agents who report collusive behavior and penalizing identified participants, the mechanism induces strategic defection and renders collusion unstable. We further design supporting mechanisms, including reporting deposits, smart contract-based reward enforcement, and encrypted communication, to ensure robustness against misuse of the incentive mechanism and retaliation from penalized agents. We implement the proposed approach in both simulated and real-world embodied environments. Experimental results show that our method effectively suppresses collusion by inducing defection, while preserving system efficiency. It achieves performance comparable to the non-collusion baseline and outperforms representative reactive defenses, thereby fulfilling the desired security objectives. These results demonstrate the effectiveness of proactive incentive design as a practical paradigm for securing embodied multi-agent systems.


翻译:自主智能体之间的合谋对具身多智能体系统构成严重安全威胁,这种协调行为可能偏离全局目标并导致现实世界中的严重后果。现有防御措施主要基于身份控制或事后行为分析,但由于物理环境中存在反馈延迟和观测噪声,行为偏差难以被准确及时地检测,因此无法有效应对具身环境中的此类威胁。为解决这一挑战,我们提出了一种诱变激励干预方法,通过重塑智能体的收益结构来抑制合谋。该机制通过奖励举报合谋行为的智能体并惩罚确认参与的个体,诱导策略性背叛,使合谋状态变得不稳定。我们进一步设计了配套机制,包括举报押金、基于智能合约的奖励执行以及加密通信,以确保该激励机制的稳健性,防止被滥用以及受罚智能体的报复。我们在仿真和真实具身环境中实现了所提出的方法。实验结果表明,该方法通过诱导背叛有效抑制了合谋,同时保持了系统效率。其性能达到了与非合谋基线相当的水平,并优于具有代表性的反应式防御方法,从而实现了预期的安全目标。这些结果证明了主动激励设计作为保障具身多智能体系统安全的实用范式的有效性。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
40+阅读 · 2月2日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
21+阅读 · 2025年5月8日
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
精确打击体系智能化的发展
专知会员服务
77+阅读 · 2024年2月3日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Arxiv
0+阅读 · 3月1日
VIP会员
相关主题
最新内容
高阶网络的表示:基于图的框架综述
专知会员服务
1+阅读 · 今天16:46
《人工智能中的多智能体自主决策》380页博士论文
《作战资源再分配的作战行动数学模型构建》
专知会员服务
12+阅读 · 今天2:37
世界动作模型: 具身AI的下一个前沿
专知会员服务
12+阅读 · 5月13日
全球十大防空反导系统:列表、射程与用途
专知会员服务
15+阅读 · 5月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员