Deceptive UI designs, widely instantiated across the web and commonly known as dark patterns, manipulate users into performing actions misaligned with their goals. In this paper, we show that dark patterns are highly effective in steering agent trajectories, posing a significant risk to agent robustness. To quantify this risk, we introduce DECEPTICON, an environment for testing individual dark patterns in isolation. DECEPTICON includes 700 web navigation tasks with dark patterns -- 600 generated tasks and 100 real-world tasks, designed to measure instruction-following success and dark pattern effectiveness. Across state-of-the-art agents, we find dark patterns successfully steer agent trajectories towards malicious outcomes in over 70% of tested generated and real-world tasks -- compared to a human average of 31%. Moreover, we find that dark pattern effectiveness correlates positively with model size and test-time reasoning, making larger, more capable models more susceptible. Leading countermeasures against adversarial attacks, including in-context prompting and guardrail models, fail to consistently reduce the success rate of dark pattern interventions. Our findings reveal dark patterns as a latent and unmitigated risk to web agents, highlighting the urgent need for robust defenses against manipulative designs.


翻译:欺骗性用户界面设计在网络中广泛存在,通常被称为暗黑模式,其通过操纵用户执行与其目标不符的操作。本文研究表明,暗黑模式在引导智能体行为轨迹方面极为有效,对智能体鲁棒性构成重大风险。为量化此风险,我们提出了DECEPTICON——一个用于独立测试单一暗黑模式的实验环境。DECEPTICON包含700项含暗黑模式的网络导航任务(其中600项为生成任务,100项为真实世界任务),旨在衡量指令遵循成功率与暗黑模式有效性。通过对多个前沿智能体的测试,我们发现暗黑模式在超过70%的生成任务和真实世界任务中成功将智能体轨迹导向恶意结果(人类平均失误率为31%)。此外,研究显示暗黑模式的有效性与模型规模及测试时推理能力呈正相关,使得规模更大、能力更强的模型更易受操控。当前针对对抗性攻击的主要防御措施(包括上下文提示和护栏模型)均未能持续降低暗黑模式干预的成功率。我们的研究揭示了暗黑模式对网络智能体构成潜在且未缓解的风险,凸显了建立针对操纵性设计的鲁棒防御机制的紧迫性。

0
下载
关闭预览

相关内容

美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
7+阅读 · 4月18日
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
智能体网络:用AI智能体编织下一代网络
专知会员服务
30+阅读 · 2025年8月5日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
64+阅读 · 2024年5月14日
AI Agent:基于大模型的自主智能体
专知会员服务
249+阅读 · 2023年9月9日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
149+阅读 · 2019年4月7日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
如何访问"暗网"(慎入)
黑白之道
145+阅读 · 2018年6月14日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
2026“人工智能+”行业发展蓝皮书(附下载)
专知会员服务
7+阅读 · 今天12:11
《强化学习数学基础》
专知会员服务
4+阅读 · 今天12:07
“Maven计划”的发展演变之“Maven智能系统”应用
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
9+阅读 · 今天6:48
《实现联合作战能力所需的技术》58页报告
专知会员服务
5+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
5+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
7+阅读 · 今天6:12
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员