When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents - 专知论文

会员服务 ·

0

CVPR 2022 · 扰动 · 系统 · 分析 · 自动化 ·

When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents

翻译：当良性输入导致严重伤害：诱发计算机使用智能体不安全的意外行为

Jaylen Jones,Zhehao Zhang,Yuting Ning,Eric Fosler-Lussier,Pierre-Luc St-Charles,Yoshua Bengio,Dawn Song,Yu Su,Huan Sun

from arxiv, ICML 2026, Project Homepage: https://osu-nlp-group.github.io/AutoElicit/

Although computer-use agents (CUAs) hold significant potential to automate increasingly complex OS workflows, they can demonstrate unsafe unintended behaviors that deviate from expected outcomes even under benign input contexts. However, exploration of this risk remains largely anecdotal, lacking concrete characterization and automated methods to proactively surface long-tail unintended behaviors under realistic CUA scenarios. To fill this gap, we introduce the first conceptual and methodological framework for unintended CUA behaviors, by defining their key characteristics, automatically eliciting them, and analyzing how they arise from benign inputs. We propose AutoElicit: an agentic framework that iteratively perturbs benign instructions using CUA execution feedback, and elicits severe harms while keeping perturbations realistic and benign. Using AutoElicit, we surface hundreds of harmful unintended behaviors from state-of-the-art CUAs such as Claude 4.5 Haiku, Claude 4.5 Opus, and Operator. We further evaluate the transferability of human-verified successful perturbations, identifying persistent susceptibility to unintended behaviors across various other frontier CUAs. This work establishes a foundation for systematically analyzing unintended behaviors in realistic computer-use settings.

翻译：尽管计算机使用智能体（CUA）在自动化日益复杂的操作系统工作流方面具有巨大潜力，但在良性输入环境下，它们可能表现出偏离预期结果的不安全意外行为。然而，对此类风险的探索目前主要基于零散案例，缺乏具体表征和自动化方法来主动揭示现实CUA场景中长尾分布的意外行为。为填补这一空白，我们首次提出了面向CUA意外行为的概念与方法论框架，通过定义其关键特征、自动诱发机制以及分析良性输入如何引发这些行为。我们提出AutoElicit：一种利用CUA执行反馈迭代扰动良性指令、在保持扰动真实性与良性的同时诱发严重危害的智能体框架。通过AutoElicit，我们从Claude 4.5 Haiku、Claude 4.5 Opus和Operator等最先进CUA中发现了数百种有害意外行为。我们进一步评估了经人工验证的成功扰动在不同前沿CUA间的可迁移性，揭示了各模型对意外行为的持续易感性。本研究为在真实计算机使用场景中系统分析意外行为奠定了基础。

0

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

18+阅读 · 5月27日

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

16+阅读 · 4月22日

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

10+阅读 · 2月15日

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

专知会员服务

30+阅读 · 1月13日

《军事人工智能网络智能体（MAICAs）对关键基础设施的全球性威胁》

《军事人工智能网络智能体（MAICAs）对关键基础设施的全球性威胁》

专知会员服务

25+阅读 · 2025年6月22日

面向稳健和安全的具身AI：关于脆弱性与攻击的综述

面向稳健和安全的具身AI：关于脆弱性与攻击的综述

专知会员服务

19+阅读 · 2025年2月20日

针对自动驾驶智能模型的攻击与防御

针对自动驾驶智能模型的攻击与防御

专知会员服务

19+阅读 · 2024年6月25日

AI智能体面临的威胁：关键安全挑战与未来路径综述

AI智能体面临的威胁：关键安全挑战与未来路径综述

专知会员服务

53+阅读 · 2024年6月7日

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

专知会员服务

49+阅读 · 2023年7月23日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

AI前线

21+阅读 · 2019年10月28日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

经鼻给予神经生长因子通过NF-κB/BACE1信号通路治疗脑外伤相关的认知功能障碍

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

自我损耗对工作场所安全绩效的影响及缓解途径

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率本体的CPS入侵检测方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Misinformation Propagation in Benign Multi-Agent Systems

Arxiv

0+阅读 · 6月15日

Computational Safety for Generative AI: A Hypothesis Testing Perspective

Arxiv

0+阅读 · 6月14日

The Perils of Agency: How Developers Perceive, Prioritize, and Address Risks in Agentic AI Products

Arxiv

0+阅读 · 6月13日

Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents

Arxiv

0+阅读 · 6月10日

Beyond the Black Box: Interpretability of Agentic AI Tool Use

Arxiv

0+阅读 · 6月4日

Domain-Conditioned Safety in Frontier Computer-Using Agents: A 793-Episode Browser Benchmark, a Coding-Domain Cross-Reference, and a Reproducibility Audit of Recent Red-Teaming

Arxiv

0+阅读 · 6月3日

Multi-Agent Computer Use

Arxiv

0+阅读 · 6月1日

What Breaks When LLMs Code? Characterizing Operational Safety Failures of Agentic Code Assistants

Arxiv

0+阅读 · 5月29日

Investigating Detection and Obfuscation of Prompt Injection Attacks Against Software Reverse Engineering AI Agents

Arxiv

0+阅读 · 5月29日

Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction

Arxiv

0+阅读 · 5月26日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

8+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

2+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

9+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

18+阅读 · 5月27日

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

16+阅读 · 4月22日

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

10+阅读 · 2月15日

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

专知会员服务

30+阅读 · 1月13日

《军事人工智能网络智能体（MAICAs）对关键基础设施的全球性威胁》

《军事人工智能网络智能体（MAICAs）对关键基础设施的全球性威胁》

专知会员服务

25+阅读 · 2025年6月22日

面向稳健和安全的具身AI：关于脆弱性与攻击的综述

面向稳健和安全的具身AI：关于脆弱性与攻击的综述

专知会员服务

19+阅读 · 2025年2月20日

针对自动驾驶智能模型的攻击与防御

针对自动驾驶智能模型的攻击与防御

专知会员服务

19+阅读 · 2024年6月25日

AI智能体面临的威胁：关键安全挑战与未来路径综述

AI智能体面临的威胁：关键安全挑战与未来路径综述

专知会员服务

53+阅读 · 2024年6月7日

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

专知会员服务

49+阅读 · 2023年7月23日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

AI前线

21+阅读 · 2019年10月28日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

相关论文

Misinformation Propagation in Benign Multi-Agent Systems

Arxiv

0+阅读 · 6月15日

Computational Safety for Generative AI: A Hypothesis Testing Perspective

Arxiv

0+阅读 · 6月14日

The Perils of Agency: How Developers Perceive, Prioritize, and Address Risks in Agentic AI Products

Arxiv

0+阅读 · 6月13日

Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents

Arxiv

0+阅读 · 6月10日

Beyond the Black Box: Interpretability of Agentic AI Tool Use

Arxiv

0+阅读 · 6月4日

Domain-Conditioned Safety in Frontier Computer-Using Agents: A 793-Episode Browser Benchmark, a Coding-Domain Cross-Reference, and a Reproducibility Audit of Recent Red-Teaming

Arxiv

0+阅读 · 6月3日

Multi-Agent Computer Use

Arxiv

0+阅读 · 6月1日

What Breaks When LLMs Code? Characterizing Operational Safety Failures of Agentic Code Assistants

Arxiv

0+阅读 · 5月29日

Investigating Detection and Obfuscation of Prompt Injection Attacks Against Software Reverse Engineering AI Agents

Arxiv

0+阅读 · 5月29日

Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction

Arxiv

0+阅读 · 5月26日

相关基金

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

经鼻给予神经生长因子通过NF-κB/BACE1信号通路治疗脑外伤相关的认知功能障碍

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

自我损耗对工作场所安全绩效的影响及缓解途径

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率本体的CPS入侵检测方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员