As Large Language Models (LLMs) evolve into autonomous agents, existing safety evaluations face a fundamental trade-off: manual benchmarks are costly, while LLM-based simulators are scalable but suffer from logic hallucination. We present AutoControl Arena, an automated framework for frontier AI risk evaluation built on the principle of logic-narrative decoupling. By grounding deterministic state in executable code while delegating generative dynamics to LLMs, we mitigate hallucination while maintaining flexibility. This principle, instantiated through a three-agent framework, achieves over 98% end-to-end success and 60% human preference over existing simulators. To elicit latent risks, we vary environmental Stress and Temptation across X-Bench (70 scenarios, 7 risk categories). Evaluating 9 frontier models reveals: (1) Alignment Illusion: risk rates surge from 21.7% to 54.5% under pressure, with capable models showing disproportionately larger increases; (2) Scenario-Specific Safety Scaling: advanced reasoning improves robustness for direct harms but worsens it for gaming scenarios; and (3) Divergent Misalignment Patterns: weaker models cause non-malicious harm while stronger models develop strategic concealment.


翻译:随着大型语言模型(LLM)演化为自主智能体,现有安全性评估面临一个根本性权衡:人工基准测试成本高昂,而基于LLM的模拟器虽可扩展却存在逻辑幻觉问题。本文提出AutoControl Arena,一个基于逻辑-叙事解耦原则构建的、用于前沿人工智能风险评估的自动化框架。通过将确定性状态锚定于可执行代码,同时将生成动态委托给LLM,我们在保持灵活性的同时有效缓解了幻觉问题。该原则通过三智能体框架实例化,实现了超过98%的端到端成功率和相较于现有模拟器60%的人类偏好度。为揭示潜在风险,我们在X-Bench(涵盖70个场景、7个风险类别)中系统调整环境压力与诱惑强度。对9个前沿模型的评估表明:(1)对齐幻觉现象:在压力环境下风险率从21.7%飙升至54.5%,且能力越强的模型风险增幅越大;(2)场景特异性安全缩放:先进推理能力虽能提升直接伤害场景的鲁棒性,却会恶化博弈场景的安全性;(3)错位模式分化:较弱模型主要造成非恶意伤害,而较强模型则发展出策略性隐瞒行为。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
一种Agent自主性风险评估框架 | 最新文献
专知会员服务
23+阅读 · 2025年10月24日
专知会员服务
98+阅读 · 2021年1月24日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
VIP会员
最新内容
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
0+阅读 · 6分钟前
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 34分钟前
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员