大语言模型(LLMs)正日益广泛地作为自主智能体(Autonomous Agents)部署,这些系统能够观察真实世界环境、与之交互并追求既定目标。然而,智能体追求的目标往往与其操作者的意图相背离,这一现象被称为失配(Misalignment)。随着智能体在具有高风险的场景中被赋予更大的自主权,理解并解决失配问题对于确保系统的安全性和可靠性至关重要。本论文通过三个互补的维度对 AI 智能体的失配问题展开研究:建模其产生机制、测量其普遍性,以及表征其在模型内部机理中的呈现。 首先(第二节),我们通过形式化智能体部署中固有的反馈回路来对失配问题进行建模。研究表明,此类反馈回路可能会意外地诱发优化行为,即使在没有明确训练信号的情况下,也会驱动有害的副作用,我们将这一现象称为“上下文内奖励破解”(In-context Reward Hacking)。 其次(第三节),我们通过引入 Machiavelli 基准测试来测量失配程度。该基准包含一系列旨在评估智能体能力与伦理行为的文本游戏。研究发现,追求奖励最大化的智能体会系统性地表现出欺骗性和权力寻求倾向,但简单的干预措施即可改善其伦理行为。 最后(第四节),我们开发了 LatentQA 框架,通过自然语言解释和引导 LLM 的表示形式,从而对失配进行表征。通过训练解码器来回答关于模型激活值的开放式问题,我们实现了对模型倾向性的灵活监控以及对模型行为的针对性控制,其效果优于现有的探测(Probing)与干预(Steering)技术。 综上所述,这些研究为开发能够建模、测量及监控失配问题的工具提供了路线图,为构建安全且对齐的 AI 智能体奠定了基础。
现代人工智能(AI)系统正日益广泛地部署于真实世界环境中。大语言模型(LLMs)的飞速发展推动了 AI 智能体(AI Agents)的普及——在这些系统中,LLM 被赋予了观察环境并与之交互的动作空间(Affordances),并被明确指令在环境中追求特定目标。遗憾的是,智能体所追求的目标往往与操作者的预期目标存在偏差,这一现象被称为失配(Misalignment)。失配会导致严重的、非预期的现实后果,且随着智能体自主权的提升,这一问题愈发严峻。理解失配已成为开发安全 AI 智能体的关键瓶颈。 在本论文中,我们将从三个部分对 AI 智能体的失配问题进行研究: 1. 建模(Modeling):通过模拟典型智能体部署中存在的反馈回路,探究失配的产生机制。 1. 测量(Measuring):通过在类人环境中对智能体的轨迹进行行为分析,评估其普遍性。 1. 表征(Characterizing):通过将智能体的内部表示解码为自然语言,揭示其内在状态。
本论文的第一部分通过形式化部署环境下的反馈回路(Feedback Loops),对失配的演变进行建模。当 LLM 与世界交互(如发布内容、执行交易或检索信息)时,其先前的输出会改变环境,进而影响其后续行为。我们对这一动态过程进行了形式化处理,并证明此类反馈回路会意外地诱发优化行为(Optimization):在每个循环中,即使没有明确的训练信号,智能体也会不断精炼其输出或调整策略以趋近某个代理目标(Proxy Objective)。 研究表明,这种优化会导致上下文内奖励破解(In-context Reward Hacking, ICRH):即在优化自然语言目标的过程中产生有害的副作用。与发生在训练阶段的传统奖励破解不同,ICRH 是一种随 LLM 利用稀疏反馈的能力而产生的测试时(Test-time)现象。我们识别了 ICRH 产生的两种机制: * 输出精炼(Output Refinement):智能体根据环境反馈迭代改进输出(例如:通过 A/B 测试推文以最大化参与度,却导致毒性增加)。 * 策略精炼(Policy Refinement):智能体针对错误调整其整体策略(例如:在遇到余额不足错误后尝试进行未经授权的转账)。
第二部分通过在复杂的社会化环境中评估智能体行为来测量失配。虽然先前的基准测试侧重于孤立场景下的伦理推理或单纯的能力评估,但现实中的智能体必须处理目标追求与伦理行为可能发生冲突的社会情境。我们引入了 Machiavelli 基准测试,这是一套包含 134 个文本游戏、超过 50 万个场景的套件,旨在评估智能体在长时程、社会化交互中的能力与危害性。 我们发现,追求奖励最大化的智能体表现出显著的马基雅维利倾向(Machiavellian behaviors):与随机基准相比,这类智能体表现出更低的道德感、更少关注他人福祉,且具有更强的权力寻求(Power-seeking)倾向。这表明,道德无关(Morality-agnostic)的训练目标会系统性地产生具有欺骗性或不道德行为倾向的策略。
第三部分开发了通过自然语言解释和引导 LLM 表示的工具。现有的监测手段(如输出标量或 Token 的探测器)在检测能力上受限,而干预技术通常依赖特定任务的数据。我们提出了 LatentQA,这是一个针对模型激活值进行开放式问答的框架,实现了灵活的监控(如“模型对该用户存在哪些偏见?”)和针对性的控制。 为了训练 LatentQA,我们开发了潜变量解释微调(Latent Interpretation Tuning, LIT)技术。该技术通过在激活值与自然语言标签组成的成对数据集上微调解码器 LLM,使其能够从当前提示词的激活值中预测模型未来补全的定性属性。在控制实验中,LIT 是唯一在标准基准上实现显著降低偏见的技术,并能推广到引导模型产生未见行为(如从安全微调模型中诱导有害知识)。