LLM-based agents are increasingly deployed to autonomously solve complex tasks, raising urgent needs for IP protection and regulatory provenance. While content watermarking effectively attributes LLM-generated outputs, it fails to directly identify the high-level planning behaviors (e.g., tool and subgoal choices) that govern multi-step execution. Critically, watermarking at the planning-behavior layer faces unique challenges: minor distributional deviations in decision-making can compound during long-term agent operation, degrading utility, and many agents operate as black boxes that are difficult to intervene in directly. To bridge this gap, we propose AgentMark, a behavioral watermarking framework that embeds multi-bit identifiers into planning decisions while preserving utility. It operates by eliciting an explicit behavior distribution from the agent and applying distribution-preserving conditional sampling, enabling deployment under black-box APIs while remaining compatible with action-layer content watermarking. Experiments across embodied, tool-use, and social environments demonstrate practical multi-bit capacity, robust recovery from partial logs, and utility preservation. The code is available at https://github.com/Tooooa/AgentMark.


翻译:基于大语言模型(LLM)的智能体正日益广泛地部署于自主解决复杂任务,这引发了对知识产权保护和监管溯源的迫切需求。虽然内容水印技术能有效归属LLM生成的输出,但它无法直接识别控制多步执行的高层规划行为(例如工具与子目标选择)。关键在于,在规划行为层进行水印面临独特挑战:决策过程中微小的分布偏差可能在智能体长期运行中累积,从而降低效用;且许多智能体以黑盒形式运行,难以直接干预。为弥合这一差距,我们提出了AgentMark,一种将多比特标识符嵌入规划决策同时保持效用的行为水印框架。其工作原理是通过从智能体引出显式行为分布,并应用保持分布的条件采样,从而实现在黑盒API下的部署,同时保持与动作层内容水印的兼容性。在具身、工具使用及社交环境中的实验证明了其具备实用的多比特容量、对部分日志的鲁棒恢复能力以及效用保持特性。代码发布于 https://github.com/Tooooa/AgentMark。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
面向 AI 生成图像的安全与鲁棒水印:全面综述
专知会员服务
14+阅读 · 2025年10月6日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
专知会员服务
28+阅读 · 2021年7月16日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
领域应用 | NLP 和知识图谱:金融科技领域的“双子星”
开放知识图谱
21+阅读 · 2018年8月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员