A Trajectory-Based Safety Audit of Clawdbot (OpenClaw) - 专知论文

会员服务 ·

0

工具 · OpenClaw · AI · 模糊性 · 对抗 ·

A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)

翻译：基于轨迹的Clawdbot（OpenClaw）安全性审计

Tianyu Chen,Dongrui Liu,Xia Hu,Jingyi Yu,Wenjie Wang

Clawdbot is a self-hosted, tool-using personal AI agent with a broad action space spanning local execution and web-mediated workflows, which raises heightened safety and security concerns under ambiguity and adversarial steering. We present a trajectory-centric evaluation of Clawdbot across six risk dimensions. Our test suite samples and lightly adapts scenarios from prior agent-safety benchmarks (including ATBench and LPS-Bench) and supplements them with hand-designed cases tailored to Clawdbot's tool surface. We log complete interaction trajectories (messages, actions, tool-call arguments/outputs) and assess safety using both an automated trajectory judge (AgentDoG-Qwen3-4B) and human review. Across 34 canonical cases, we find a non-uniform safety profile: performance is generally consistent on reliability-focused tasks, while most failures arise under underspecified intent, open-ended goals, or benign-seeming jailbreak prompts, where minor misinterpretations can escalate into higher-impact tool actions. We supplemented the overall results with representative case studies and summarized the commonalities of these cases, analyzing the security vulnerabilities and typical failure modes that Clawdbot is prone to trigger in practice.

翻译：Clawdbot是一个自托管、可使用工具的个人AI代理，其行动空间广泛，涵盖本地执行和网络介导的工作流，这在模糊性和对抗性引导下引发了更高的安全与安保担忧。我们提出了一个以轨迹为中心的评估方法，从六个风险维度对Clawdbot进行检验。我们的测试套件采样并轻度改编了先前智能体安全基准（包括ATBench和LPS-Bench）中的场景，并针对Clawdbot的工具接口补充了手工设计的案例。我们记录了完整的交互轨迹（消息、动作、工具调用参数/输出），并使用自动化轨迹评判器（AgentDoG-Qwen3-4B）和人工审核相结合的方式评估安全性。在34个典型案例中，我们发现其安全性表现并不均匀：在侧重于可靠性的任务上表现总体一致，而大多数失败发生在意图未明确指定、目标开放或看似良性的越狱提示下，其中微小的误解可能升级为更高影响的工具操作。我们在整体结果基础上补充了代表性案例研究，总结了这些案例的共性，分析了Clawdbot在实践中容易触发的安全漏洞和典型故障模式。

2

相关内容

OpenClaw完全指南：从入门到精通｜附629页PDF文件下载

OpenClaw完全指南：从入门到精通｜附629页PDF文件下载

专知会员服务

87+阅读 · 3月14日

AI大模型·白皮书 | OpenClaw自我研究1.0报告-清新研究-66页

AI大模型·白皮书 | OpenClaw自我研究1.0报告-清新研究-66页

专知会员服务

65+阅读 · 3月7日

清华大学：OpenClaw发展研究1.0报告｜附75页PDF文件下载

清华大学：OpenClaw发展研究1.0报告｜附75页PDF文件下载

专知会员服务

120+阅读 · 3月6日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

MMClaw 接入飞书实战：权限、长连接等设置（也适用于OpenClaw）

MMClaw 接入飞书实战：权限、长连接等设置（也适用于OpenClaw）

专知会员服务

15+阅读 · 2月14日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

23+阅读 · 2025年10月24日

推荐！【军事决策辅助系统】中文版《综述：用于开发指挥侦察区域协调和控制环境网络（CRACCEN）决策辅助系统的显示和输入技术》加拿大国防研究与发展部2022最新66页长综述报告

推荐！【军事决策辅助系统】中文版《综述：用于开发指挥侦察区域协调和控制环境网络（CRACCEN）决策辅助系统的显示和输入技术》加拿大国防研究与发展部2022最新66页长综述报告

专知会员服务

51+阅读 · 2022年10月10日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知会员服务

378+阅读 · 2022年2月26日

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

专知会员服务

25+阅读 · 2019年11月16日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

专知

23+阅读 · 2022年6月3日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

YOLOv5在建筑工地中安全帽佩戴检测的应用（已开源+数据集）

YOLOv5在建筑工地中安全帽佩戴检测的应用（已开源+数据集）

计算机视觉life

24+阅读 · 2020年11月10日

地平线提出AFDet：首个Anchor free、NMS free的3D目标检测算法

地平线提出AFDet：首个Anchor free、NMS free的3D目标检测算法

CVer

10+阅读 · 2020年6月27日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

36+阅读 · 2019年10月23日

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

AI研习社

10+阅读 · 2019年3月18日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

黑白之道

25+阅读 · 2019年3月8日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

平安云监控 || 当open-falcon遇上kubernetes

平安云监控 || 当open-falcon遇上kubernetes

运维帮

10+阅读 · 2017年7月4日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

Defensible Design for OpenClaw: Securing Autonomous Tool-Invoking Agents

Arxiv

0+阅读 · 3月13日

OpenClaw PRISM: A Zero-Fork, Defense-in-Depth Runtime Security Layer for Tool-Augmented LLM Agents

Arxiv

0+阅读 · 3月12日

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

Arxiv

0+阅读 · 3月12日

CLIOPATRA: Extracting Private Information from LLM Insights

Arxiv

0+阅读 · 3月10日

RAIN: Secure and Robust Aggregation under Shuffle Model of Differential Privacy

Arxiv

0+阅读 · 3月3日

Clawdrain: Exploiting Tool-Calling Chains for Stealthy Token Exhaustion in OpenClaw Agents

Arxiv

0+阅读 · 3月1日

PII-Bench: Evaluating Query-Aware Privacy Protection Systems

Arxiv

0+阅读 · 2月17日

RapidPen: Fully Automated IP-to-Shell Penetration Testing with LLM-based Agents

Arxiv

0+阅读 · 2月14日

PIDSMaker: Building and Evaluating Provenance-based Intrusion Detection Systems

Arxiv

0+阅读 · 2月13日

SecureScan: An AI-Driven Multi-Layer Framework for Malware and Phishing Detection Using Logistic Regression and Threat Intelligence Integration

Arxiv

0+阅读 · 2月11日

VIP会员

文章信息

相关主题

最新内容

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

0+阅读 · 4分钟前

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

0+阅读 · 8分钟前

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

0+阅读 · 38分钟前

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

9+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

4+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

2+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

2+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

相关VIP内容

OpenClaw完全指南：从入门到精通｜附629页PDF文件下载

OpenClaw完全指南：从入门到精通｜附629页PDF文件下载

专知会员服务

87+阅读 · 3月14日

AI大模型·白皮书 | OpenClaw自我研究1.0报告-清新研究-66页

AI大模型·白皮书 | OpenClaw自我研究1.0报告-清新研究-66页

专知会员服务

65+阅读 · 3月7日

清华大学：OpenClaw发展研究1.0报告｜附75页PDF文件下载

清华大学：OpenClaw发展研究1.0报告｜附75页PDF文件下载

专知会员服务

120+阅读 · 3月6日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

MMClaw 接入飞书实战：权限、长连接等设置（也适用于OpenClaw）

MMClaw 接入飞书实战：权限、长连接等设置（也适用于OpenClaw）

专知会员服务

15+阅读 · 2月14日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

23+阅读 · 2025年10月24日

推荐！【军事决策辅助系统】中文版《综述：用于开发指挥侦察区域协调和控制环境网络（CRACCEN）决策辅助系统的显示和输入技术》加拿大国防研究与发展部2022最新66页长综述报告

推荐！【军事决策辅助系统】中文版《综述：用于开发指挥侦察区域协调和控制环境网络（CRACCEN）决策辅助系统的显示和输入技术》加拿大国防研究与发展部2022最新66页长综述报告

专知会员服务

51+阅读 · 2022年10月10日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知会员服务

378+阅读 · 2022年2月26日

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

专知会员服务

25+阅读 · 2019年11月16日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

美海军数字作战负责人：如何利用数据快速生成战斗力

《系统簇式多域作战规划范畴论框架》

相关资讯

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

专知

23+阅读 · 2022年6月3日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

YOLOv5在建筑工地中安全帽佩戴检测的应用（已开源+数据集）

YOLOv5在建筑工地中安全帽佩戴检测的应用（已开源+数据集）

计算机视觉life

24+阅读 · 2020年11月10日

地平线提出AFDet：首个Anchor free、NMS free的3D目标检测算法

地平线提出AFDet：首个Anchor free、NMS free的3D目标检测算法

CVer

10+阅读 · 2020年6月27日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

36+阅读 · 2019年10月23日

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

AI研习社

10+阅读 · 2019年3月18日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

黑白之道

25+阅读 · 2019年3月8日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

平安云监控 || 当open-falcon遇上kubernetes

平安云监控 || 当open-falcon遇上kubernetes

运维帮

10+阅读 · 2017年7月4日

相关论文

Defensible Design for OpenClaw: Securing Autonomous Tool-Invoking Agents

Arxiv

0+阅读 · 3月13日

OpenClaw PRISM: A Zero-Fork, Defense-in-Depth Runtime Security Layer for Tool-Augmented LLM Agents

Arxiv

0+阅读 · 3月12日

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

Arxiv

0+阅读 · 3月12日

CLIOPATRA: Extracting Private Information from LLM Insights

Arxiv

0+阅读 · 3月10日

RAIN: Secure and Robust Aggregation under Shuffle Model of Differential Privacy

Arxiv

0+阅读 · 3月3日

Clawdrain: Exploiting Tool-Calling Chains for Stealthy Token Exhaustion in OpenClaw Agents

Arxiv

0+阅读 · 3月1日

PII-Bench: Evaluating Query-Aware Privacy Protection Systems

Arxiv

0+阅读 · 2月17日

RapidPen: Fully Automated IP-to-Shell Penetration Testing with LLM-based Agents

Arxiv

0+阅读 · 2月14日

PIDSMaker: Building and Evaluating Provenance-based Intrusion Detection Systems

Arxiv

0+阅读 · 2月13日

SecureScan: An AI-Driven Multi-Layer Framework for Malware and Phishing Detection Using Logistic Regression and Threat Intelligence Integration

Arxiv

0+阅读 · 2月11日

相关基金

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员