Self-evolving agents offer a promising path toward scalable autonomy. However, in this work, we show that in competitive environments, self-evolution can instead give rise to a serious and previously underexplored risk: the spontaneous emergence of deception as an evolutionarily stable strategy. We conduct a systematic empirical study on the self-evolution of large language model (LLM) agents in a competitive Bidding Arena, where agents iteratively refine their strategies through interaction-driven reflection. Across different evolutionary paths (\eg, Neutral, Honesty-Guided, and Deception-Guided), we find a consistent pattern: under utility-driven competition, unconstrained self-evolution reliably drifts toward deceptive behaviors, even when honest strategies remain viable. This drift is explained by a fundamental asymmetry in generalization. Deception evolves as a transferable meta-strategy that generalizes robustly across diverse and unseen tasks, whereas honesty-based strategies are fragile and often collapse outside their original contexts. Further analysis of agents internal states reveals the emergence of rationalization mechanisms, through which agents justify or deny deceptive actions to reconcile competitive success with normative instructions. Our paper exposes a fundamental tension between agent self-evolution and alignment, highlighting the risks of deploying self-improving agents in adversarial environments.


翻译:自进化智能体为实现可扩展的自主性提供了一条充满前景的路径。然而,本研究表明,在竞争性环境中,自进化反而可能引发一种严重且先前未被充分探索的风险:欺骗作为进化稳定策略的自发涌现。我们在一个竞争性的竞价竞技场中,对大型语言模型智能体的自进化进行了系统的实证研究,其中智能体通过交互驱动的反思迭代优化其策略。在不同的进化路径下(例如,中立、诚实引导和欺骗引导),我们发现了一个一致的模式:在效用驱动的竞争下,不受约束的自进化会可靠地漂向欺骗行为,即使诚实策略仍然可行。这种漂移可由泛化中的一种根本不对称性来解释。欺骗进化成为一种可迁移的元策略,能够在多样且未见过的任务中稳健地泛化,而基于诚实的策略则很脆弱,常常在其原始情境之外失效。对智能体内部状态的进一步分析揭示了合理化机制的出现,智能体通过该机制为其欺骗行为进行辩护或否认,以调和竞争成功与规范性指令之间的冲突。本文揭示了智能体自进化与对齐之间的根本性张力,凸显了在对抗性环境中部署自我改进智能体所面临的风险。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
《基于Transformer的智能体的战术决策解释》
专知会员服务
40+阅读 · 2025年12月28日
【新书】神经进化:释放 AI 智能体设计的创造力, 484页pdf
专知会员服务
41+阅读 · 2025年11月23日
《计算欺骗》326页
专知会员服务
45+阅读 · 2025年5月5日
【论文】欺骗学习(Learning by Cheating)
专知会员服务
28+阅读 · 2020年1月3日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
5+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
10+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员