OpenClaw, the most widely deployed personal AI agent in early 2026, operates with full local system access and integrates with sensitive services such as Gmail, Stripe, and the filesystem. While these broad privileges enable high levels of automation and powerful personalization, they also expose a substantial attack surface that existing sandboxed evaluations fail to capture. To address this gap, we present the first real-world safety evaluation of OpenClaw and introduce the CIK taxonomy, which unifies an agent's persistent state into three dimensions, i.e., Capability, Identity, and Knowledge, for safety analysis. Our evaluations cover 12 attack scenarios on a live OpenClaw instance across four backbone models (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, and GPT-5.4). The results show that poisoning any single CIK dimension increases the average attack success rate from 24.6% to 64-74%, with even the most robust model exhibiting more than a threefold increase over its baseline vulnerability. We further assess three CIK-aligned defense strategies alongside a file-protection mechanism; however, the strongest defense still yields a 63.8% success rate under Capability-targeted attacks, while file protection blocks 97% of malicious injections but also prevents legitimate updates. Taken together, these findings show that the vulnerabilities are inherent to the agent architecture, necessitating more systematic safeguards to secure personal AI agents. Our project page is https://ucsc-vlaa.github.io/CIK-Bench.


翻译:OpenClaw是2026年初部署最广泛的个人AI智能体,拥有完整的本地系统访问权限,并集成了Gmail、Stripe和文件系统等敏感服务。虽然这些广泛权限实现了高度自动化和强大个性化,但也暴露了现有沙盒评估无法捕捉的实质性攻击面。为填补这一空白,我们首次对OpenClaw进行了真实世界安全评估,并提出了CIK分类法——将智能体的持久状态统一为三个维度(能力、身份和知识)进行安全分析。我们的评估涵盖在四个骨干模型(Claude Sonnet 4.5、Opus 4.6、Gemini 3.1 Pro和GPT-5.4)上运行的实时OpenClaw实例中的12种攻击场景。结果表明,污染任何单一CIK维度都会使平均攻击成功率从24.6%提升至64-74%,即使是最稳健的模型,其漏洞也较基线增加了三倍以上。我们进一步评估了三种与CIK对齐的防御策略以及一种文件保护机制;然而,在针对能力的攻击下,最强防御仍导致63.8%的成功率,而文件保护阻止了97%的恶意注入,但也阻碍了合法更新。综合来看,这些发现表明漏洞源于智能体架构本身,需要更系统性的保障措施来保护个人AI智能体。我们的项目页面为:https://ucsc-vlaa.github.io/CIK-Bench。

0
下载
关闭预览

相关内容

AI原生组织:OpenClaw推动组织形态重塑,47页pdf
专知会员服务
26+阅读 · 3月27日
OpenAI“开放权重模型”即将进入美军作战体系
专知会员服务
31+阅读 · 2025年11月20日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
【干货】通过OpenFace来理解人脸识别
专知
56+阅读 · 2018年1月23日
资源 | 清华大学开源OpenKE:知识表示学习平台
机器之心
10+阅读 · 2017年11月4日
平安云监控 || 当open-falcon遇上kubernetes
运维帮
10+阅读 · 2017年7月4日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员