Agentic language-model systems increasingly rely on mutable execution contexts, including files, memory, tools, skills, and auxiliary artifacts, creating security risks beyond explicit user prompts. This paper presents DeepTrap, an automated framework for discovering contextual vulnerabilities in OpenClaw. DeepTrap formulates adversarial context manipulation as a black-box trajectory-level optimization problem that balances risk realization, benign-task preservation, and stealth. It combines risk-conditioned evaluation, multi-objective trajectory scoring, reward-guided beam search, and reflection-based deep probing to identify high-value compromised contexts. We construct a 42-case benchmark spanning six vulnerability classes and seven operational scenarios, and evaluate nine target models using attack and utility grading scores. Results show that contextual compromise can induce substantial unsafe behavior while preserving user-facing task completion, demonstrating that final-response evaluation is insufficient. The findings highlight the need for execution-centric security evaluation of agentic AI systems. Our code is released at: https://github.com/ZJUICSR/DeepTrap


翻译:基于语言模型的智能体系统越来越依赖可变的执行上下文,包括文件、内存、工具、技能和辅助工件,这带来了超越显式用户提示的安全风险。本文提出DeepTrap,一种自动发现OpenClaw中上下文漏洞的框架。DeepTrap将对抗性上下文操纵形式化为黑盒轨迹级优化问题,平衡风险实现、良性任务保持和隐蔽性。它结合了风险条件评估、多目标轨迹评分、奖励引导的束搜索和基于反思的深度探测来识别高价值的受损上下文。我们构建了一个涵盖六类漏洞和七个操作场景的42例基准测试,并使用攻击评分和效用评分评估了九个目标模型。结果表明,上下文妥协可以在保持面向用户任务完成的同时诱发大量不安全行为,证明最终响应评估是不充分的。这些发现凸显了对智能体AI系统进行以执行为中心的安全性评估的必要性。我们的代码发布在:https://github.com/ZJUICSR/DeepTrap

0
下载
关闭预览

相关内容

AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
《大语言模型驱动的智能红队测试》
专知会员服务
18+阅读 · 2025年11月26日
OpenAI“开放权重模型”即将进入美军作战体系
专知会员服务
31+阅读 · 2025年11月20日
智能体任务执行安全要求
专知会员服务
19+阅读 · 2025年7月12日
DeepSeek模型在中文语境下的安全性评估
专知会员服务
26+阅读 · 2025年2月21日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月14日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 53分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员