Voluntary Collusion with Secret Tools in Competing LLM Agents - 专知论文

会员服务 ·

0

工具 · 语言模型 · 对齐 · 智能体 · 大语言模型智能体 ·

Voluntary Collusion with Secret Tools in Competing LLM Agents

翻译：拥有隐秘工具的大语言模型智能体在竞争中的自愿合谋

Xijie Zeng,Frank Rudzicz

Even when a tool is explicitly described as unfair and harmful to others, ostensibly safety-aligned LLM agents still voluntarily engage in secret collusion whenever doing so confers a strategic advantage. To investigate this phenomenon, we introduce an empirical framework built on two strategic multi-agent environments: Liar's Bar, a competitive deception scenario, and Cleanup, a mixed-motive resource-management scenario, in which agents are offered secret collusion tools that provide significant advantages while clearly disadvantaging the other agents. Across 12 models (at the 7B, 70B, and proprietary scales) and 6 prompt variants, we find that most agents consistently accept these tools and develop collusive strategies, while explicitly acknowledging the unfairness of the tools before accepting. We further show that neither the unfairness labels nor baseline alignment alone reliably deters collusion: only explicit ethical framing reduces adoption and, even then, smaller models remain susceptible. More broadly, our work presents the first systematic investigation of voluntary collusion adoption in LLM-based multi-agent systems, and suggests that preventing such behaviour requires explicit safeguards rather than reliance on general alignment.

翻译：即使某项工具被明确描述为对他者不公平且有害，表面经过安全对齐的大语言模型智能体仍然会在能够带来策略优势时自愿进行秘密合谋。为探究这一现象，我们引入了一个基于两种策略性多智能体场景的实证框架：竞争性欺骗场景“骗子酒吧”与混合动机资源管理场景“清理行动”。在这些场景中，智能体获得提供显著优势但同时明确使其他智能体处于不利地位的秘密合谋工具。针对12个模型（参数量级为7B、70B及闭源模型）及6种提示变体的测试发现，大多数智能体在明确承认这些工具的不公平性后仍持续接受这些工具并发展出合谋策略。我们进一步证明，仅依靠不公平性标签或基础对齐均无法可靠遏制合谋行为：唯有明确的伦理框架能降低工具采用率，但即便如此，较小规模模型仍容易受影响。更广泛而言，本研究首次系统性地揭示了基于大语言模型的多智能体系统中自愿合谋的采纳机制，表明预防此类行为需要显式防护措施而非依赖通用对齐。

0

相关内容

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

专知会员服务

8+阅读 · 7月29日

《国防领域安全采用大语言模型的战略蓝图》

《国防领域安全采用大语言模型的战略蓝图》

专知会员服务

21+阅读 · 6月6日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

面向战斗模拟空间推理的大语言模型指挥官智能体框架

面向战斗模拟空间推理的大语言模型指挥官智能体框架

专知会员服务

27+阅读 · 3月18日

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

人机协同作战规划：来自美海军陆战队的大语言模型（LLM）使用教训

人机协同作战规划：来自美海军陆战队的大语言模型（LLM）使用教训

专知会员服务

27+阅读 · 2025年10月16日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

大语言模型智能体

大语言模型智能体

专知会员服务

100+阅读 · 2024年12月25日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

专知

54+阅读 · 2022年11月14日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

84+阅读 · 2022年7月7日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

专知

57+阅读 · 2022年4月11日

【AI+军事】《AI/ML在支持混合军事行动中情报和目标定位方面的优势和挑战》加拿大国防研究和发展部

【AI+军事】《AI/ML在支持混合军事行动中情报和目标定位方面的优势和挑战》加拿大国防研究和发展部

专知

104+阅读 · 2022年4月7日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

AgentLeak: A Benchmark for Internal-Channel Privacy Leakage in Multi-Agent LLM Systems

Arxiv

0+阅读 · 6月15日

LLM Agents Can See Code Repositories

Arxiv

0+阅读 · 6月12日

SAIGuard: Communication-State Simulation for Proactive Defense of LLM Multi-Agent Systems

Arxiv

0+阅读 · 6月10日

MAR:Multi-Agent Reflexion Improves Reasoning Abilities in LLMs

Arxiv

0+阅读 · 6月7日

Payoff scaling shapes cooperation in LLM agents across languages

Arxiv

0+阅读 · 6月6日

Collective Hallucination in Multi-Agent LLMs:Modeling and Defense

Arxiv

0+阅读 · 6月6日

Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage

Arxiv

0+阅读 · 5月18日

ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection

Arxiv

0+阅读 · 5月11日

Searching for Privacy Risks in LLM Agents via Simulation

Arxiv

0+阅读 · 5月8日

SRTJ: Self-Evolving Rule-Driven Training-Free LLM Jailbreaking

Arxiv

0+阅读 · 5月1日

VIP会员

文章信息

相关主题

大语言模型智能体

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

专知会员服务

8+阅读 · 7月29日

《国防领域安全采用大语言模型的战略蓝图》

《国防领域安全采用大语言模型的战略蓝图》

专知会员服务

21+阅读 · 6月6日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

面向战斗模拟空间推理的大语言模型指挥官智能体框架

面向战斗模拟空间推理的大语言模型指挥官智能体框架

专知会员服务

27+阅读 · 3月18日

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

人机协同作战规划：来自美海军陆战队的大语言模型（LLM）使用教训

人机协同作战规划：来自美海军陆战队的大语言模型（LLM）使用教训

专知会员服务

27+阅读 · 2025年10月16日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

大语言模型智能体

大语言模型智能体

专知会员服务

100+阅读 · 2024年12月25日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

专知

54+阅读 · 2022年11月14日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

84+阅读 · 2022年7月7日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

专知

57+阅读 · 2022年4月11日

【AI+军事】《AI/ML在支持混合军事行动中情报和目标定位方面的优势和挑战》加拿大国防研究和发展部

【AI+军事】《AI/ML在支持混合军事行动中情报和目标定位方面的优势和挑战》加拿大国防研究和发展部

专知

104+阅读 · 2022年4月7日

相关论文

AgentLeak: A Benchmark for Internal-Channel Privacy Leakage in Multi-Agent LLM Systems

Arxiv

0+阅读 · 6月15日

LLM Agents Can See Code Repositories

Arxiv

0+阅读 · 6月12日

SAIGuard: Communication-State Simulation for Proactive Defense of LLM Multi-Agent Systems

Arxiv

0+阅读 · 6月10日

MAR:Multi-Agent Reflexion Improves Reasoning Abilities in LLMs

Arxiv

0+阅读 · 6月7日

Payoff scaling shapes cooperation in LLM agents across languages

Arxiv

0+阅读 · 6月6日

Collective Hallucination in Multi-Agent LLMs:Modeling and Defense

Arxiv

0+阅读 · 6月6日

Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage

Arxiv

0+阅读 · 5月18日

ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection

Arxiv

0+阅读 · 5月11日

Searching for Privacy Risks in LLM Agents via Simulation

Arxiv

0+阅读 · 5月8日

SRTJ: Self-Evolving Rule-Driven Training-Free LLM Jailbreaking

Arxiv

0+阅读 · 5月1日

相关基金

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员