OpenClaw, the most widely deployed personal AI agent in early 2026, operates with full local system access and integrates with sensitive services such as Gmail, Stripe, and the filesystem. While these broad privileges enable high levels of automation and powerful personalization, they also expose a substantial attack surface that existing sandboxed evaluations fail to capture. To address this gap, we present the first real-world safety evaluation of OpenClaw and introduce the CIK taxonomy, which unifies an agent's persistent state into three dimensions, i.e., Capability, Identity, and Knowledge, for safety analysis. Our evaluations cover 12 attack scenarios on a live OpenClaw instance across four backbone models (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, and GPT-5.4). The results show that poisoning any single CIK dimension increases the average attack success rate from 24.6% to 64-74%, with even the most robust model exhibiting more than a threefold increase over its baseline vulnerability. We further assess three CIK-aligned defense strategies alongside a file-protection mechanism; however, the strongest defense still yields a 63.8% success rate under Capability-targeted attacks, while file protection blocks 97% of malicious injections but also prevents legitimate updates. Taken together, these findings show that the vulnerabilities are inherent to the agent architecture, necessitating more systematic safeguards to secure personal AI agents. Our project page is https://ucsc-vlaa.github.io/CIK-Bench.


翻译:OpenClaw是2026年初部署最广泛的个人AI智能体,拥有完整的本地系统访问权限,并集成了Gmail、Stripe和文件系统等敏感服务。虽然这些广泛权限实现了高度自动化和强大个性化,但也暴露了现有沙盒评估无法捕捉的实质性攻击面。为填补这一空白,我们首次对OpenClaw进行了真实世界安全评估,并提出了CIK分类法——将智能体的持久状态统一为三个维度(能力、身份和知识)进行安全分析。我们的评估涵盖在四个骨干模型(Claude Sonnet 4.5、Opus 4.6、Gemini 3.1 Pro和GPT-5.4)上运行的实时OpenClaw实例中的12种攻击场景。结果表明,污染任何单一CIK维度都会使平均攻击成功率从24.6%提升至64-74%,即使是最稳健的模型,其漏洞也较基线增加了三倍以上。我们进一步评估了三种与CIK对齐的防御策略以及一种文件保护机制;然而,在针对能力的攻击下,最强防御仍导致63.8%的成功率,而文件保护阻止了97%的恶意注入,但也阻碍了合法更新。综合来看,这些发现表明漏洞源于智能体架构本身,需要更系统性的保障措施来保护个人AI智能体。我们的项目页面为:https://ucsc-vlaa.github.io/CIK-Bench。

0
下载
关闭预览

相关内容

AI原生组织:OpenClaw推动组织形态重塑,47页pdf
专知会员服务
26+阅读 · 3月27日
OpenAI“开放权重模型”即将进入美军作战体系
专知会员服务
31+阅读 · 2025年11月20日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
【干货】通过OpenFace来理解人脸识别
专知
56+阅读 · 2018年1月23日
资源 | 清华大学开源OpenKE:知识表示学习平台
机器之心
10+阅读 · 2017年11月4日
平安云监控 || 当open-falcon遇上kubernetes
运维帮
10+阅读 · 2017年7月4日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关资讯
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员