Tool-augmented LLM agents introduce security risks that extend beyond user-input filtering, including indirect prompt injection through fetched content, unsafe tool execution, credential leakage, and tampering with local control files. We present OpenClaw PRISM, a zero-fork runtime security layer for OpenClaw-based agent gateways. PRISM combines an in-process plugin with optional sidecar services and distributes enforcement across ten lifecycle hooks spanning message ingress, prompt construction, tool execution, tool-result persistence, outbound messaging, sub-agent spawning, and gateway startup. Rather than introducing a novel detection model, PRISM integrates a hybrid heuristic-plus-LLM scanning pipeline, conversation- and session-scoped risk accumulation with TTL-based decay, policy-enforced controls over tools, paths, private networks, domain tiers, and outbound secret patterns, and a tamper-evident audit and operations plane with integrity verification and hot-reloadable policy management. We outline an evaluation methodology and benchmark pipeline for measuring security effectiveness, false positives, layer contribution, runtime overhead, and operational recoverability in an agent-runtime setting, and we report current preliminary benchmark results on curated same-slice experiments and operational microbenchmarks. The system targets deployable runtime defense for real agent gateways rather than benchmark-only detection.


翻译:工具增强型大型语言模型(LLM)代理引入了超出用户输入过滤范畴的安全风险,包括通过获取内容进行的间接提示注入、不安全的工具执行、凭证泄漏以及对本地控制文件的篡改。本文提出OpenClaw PRISM,一种用于基于OpenClaw的代理网关的零分支运行时安全层。PRISM将一个进程内插件与可选的边车服务相结合,并将安全策略的执行分布在跨越消息入口、提示构建、工具执行、工具结果持久化、出站消息传递、子代理生成以及网关启动的十个生命周期钩子上。PRISM并非引入一种新颖的检测模型,而是集成了混合启发式加LLM扫描流水线、具有基于TTL衰减的会话与会话范围风险累积、对工具、路径、私有网络、域名层级和出站密钥模式进行策略强制控制,以及一个具备完整性验证和可热重载策略管理的防篡改审计与运维平面。我们概述了一种评估方法论和基准测试流水线,用于在代理运行时环境中测量安全有效性、误报率、各层贡献、运行时开销和操作可恢复性,并报告了当前在精选同切片实验和操作微基准测试上的初步基准结果。该系统旨在为真实的代理网关提供可部署的运行时防御,而非仅限于基准测试的检测。

0
下载
关闭预览

相关内容

揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
OpenAI Lilian Weng万字长文解读LLM幻觉:从理解到克服
专知会员服务
37+阅读 · 2024年7月14日
【2024新书】大型语言模型安全开发者手册,250页pdf
专知会员服务
76+阅读 · 2024年2月12日
使用 OpenLLM 构建和部署大模型应用
专知会员服务
55+阅读 · 2024年1月4日
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
通过Termux打造免root安卓渗透工具
黑客技术与网络安全
16+阅读 · 2019年8月16日
OpenCV4系统化学习路线图与教程
计算机视觉战队
18+阅读 · 2019年3月29日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
资源 | 清华大学开源OpenKE:知识表示学习平台
机器之心
10+阅读 · 2017年11月4日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月12日
VIP会员
最新内容
Palantir AIP平台:连接智能体与决策
专知会员服务
7+阅读 · 今天1:22
《美海军软件测试战略》90页slides
专知会员服务
7+阅读 · 今天1:00
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
8+阅读 · 4月30日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员