Frontier language model agents can exhibit misaligned behaviors, including deception, exploiting reward hacks, and pursuing hidden objectives. To control potentially misaligned agents, we can use LLMs themselves to monitor for misbehavior. In this paper, we study how information access affects LLM monitor performance. While one might expect that monitors perform better when they have access to more of the monitored agents' reasoning and actions, we find that contemporary systems often perform better with less information, a phenomenon we call the less-is-more effect for automated oversight. We demonstrate this phenomenon, and analyze the conditions under which it occurs, in three evaluation environments where agents must conduct sabotage while evading monitors. Motivated by the less-is-more effect, we introduce extract-and-evaluate (EaE) monitoring--a new hierarchical approach where one monitor isolates relevant excerpts from the monitored agent's trajectory and a separate monitor scores them. In BigCodeBench-Sabotage with GPT-4.1-mini as the monitor model, EaE improves sabotage detection rates by 16.8 percentage points over the next-best monitor without increasing the false positive rate. In other settings, EaE either outperforms or is competitive with baselines. In addition, we find that agents unaware of being monitored can be caught much more easily and that monitors scoring longer reasoning traces gain more from information filtering. Lastly, we conduct a cost-performance analysis and find that Gemini and Claude models with monitoring techniques that involve information filtering occupy much of the Pareto frontier.


翻译:前沿语言模型智能体可能表现出未对齐行为,包括欺骗、利用奖励漏洞及追求隐藏目标。为控制潜在未对齐的智能体,我们可以使用LLM自身来监控不当行为。本文研究信息获取如何影响LLM监控器的性能。尽管人们可能预期监控器在获取更多被监控智能体的推理过程和行为信息时表现更佳,但我们发现当代系统通常在信息较少时表现更好,这一现象我们称之为自动化监督的"少即是多"效应。我们在三个评估环境中论证了该现象并分析其发生条件,这些环境要求智能体在实施破坏行为的同时规避监控。受"少即是多"效应启发,我们提出提取-评估监控法——一种新型分层监控方法:首个监控器从被监控智能体的行为轨迹中隔离相关片段,再由独立监控器对其进行评分。在BigCodeBench-Sabotage环境中使用GPT-4.1-mini作为监控模型时,EaE方法将破坏行为检测率较次优监控器提升16.8个百分点,且未增加误报率。在其他实验场景中,EaE方法均优于或与基线方法持平。此外,我们发现未察觉被监控的智能体更容易被捕获,且对较长推理轨迹进行评分的监控器更能从信息过滤中获益。最后通过成本-性能分析发现,采用信息过滤技术的Gemini和Claude模型在帕累托前沿中占据主导地位。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
可信赖LLM智能体的研究综述:威胁与应对措施
专知会员服务
36+阅读 · 2025年3月17日
【ICLR2024】能检测到LLM产生的错误信息吗?
专知会员服务
25+阅读 · 2024年1月23日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关资讯
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员