Watermarking techniques for large language models (LLMs), which encode hidden information in the output so its source can be verified, have gained significant attention in recent days, thanks to their potential capability to detect accidental or deliberate misuse. Similar challenges involving model misuse also exist in the context of game-playing, such as when detecting the unauthorized use of AI tools in gaming platforms (e.g., cheating in online chess). In this paper, we initiate the study of how game-playing strategies can be watermarked. We show how the KGW watermark for LLMs can be adapted to watermark game-playing agents in perfect-information extensive-form games. The watermark can then be detected using a statistical test. We show that the degradation in the quality of the watermarked strategy profile, quantified by the expected utility, can be bounded, but there is a tradeoff between detectability and quality. In our experiments, we bootstrap the watermarking framework to various chess engines and demonstrate that a) the impact of the watermark on the quality of the strategy is negligible and b) the watermark can be detected with just a handful of games.


翻译:大型语言模型(LLMs)的水印技术通过在输出中嵌入隐藏信息以验证其来源,近年来因其检测意外或恶意滥用的潜在能力而备受关注。在博弈场景中也存在类似的模型滥用问题,例如检测游戏平台中未经授权使用人工智能工具(如在线国际象棋作弊)。本文首次系统研究游戏策略的水印化方法。我们展示了如何将适用于LLMs的KGW水印技术适配到完美信息扩展形式博弈中的游戏智能体,并可通过统计检验进行检测。研究表明,水印化策略配置的质量退化(以期望效用度量)是可控的,但可检测性与质量之间存在权衡。实验中,我们将该水印框架应用于多种国际象棋引擎,结果表明:(a)水印对策略质量的影响可忽略不计;(b)仅需少量对局即可检测出水印存在。

0
下载
关闭预览

相关内容

【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
基于大型语言模型的游戏智能体综述
专知会员服务
66+阅读 · 2024年4月3日
专知会员服务
28+阅读 · 2021年7月16日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员