Large language models are beginning to show steganographic capabilities. Such capabilities could allow misaligned models to evade oversight mechanisms. Yet principled methods to detect and quantify such behaviours are lacking. Classical definitions of steganography, and detection methods based on them, require a known reference distribution of non-steganographic signals. For the case of steganographic reasoning in LLMs, knowing such a reference distribution is not feasible; this renders these approaches inapplicable. We propose an alternative, \textbf{decision-theoretic view of steganography}. Our central insight is that steganography creates an asymmetry in usable information between agents who can and cannot decode the hidden content (present within a steganographic signal), and this otherwise latent asymmetry can be inferred from the agents' observable actions. To formalise this perspective, we introduce generalised $\mathcal{V}$-information: a utilitarian framework for measuring the amount of usable information within some input. We use this to define the \textbf{steganographic gap} -- a measure that quantifies steganography by comparing the downstream utility of the steganographic signal to agents that can and cannot decode the hidden content. We empirically validate our formalism, and show that it can be used to detect, quantify, and mitigate steganographic reasoning in LLMs.


翻译:大型语言模型开始展现出隐写能力。这种能力可能使未对齐的模型规避监督机制。然而,目前缺乏检测和量化此类行为的原理性方法。经典的隐写术定义及其衍生的检测方法,都需要已知非隐写信号的参考分布。对于大语言模型中的隐写式推理而言,获知此类参考分布并不可行,这导致这些方法无法适用。我们提出了一种替代性的**隐写术决策理论视角**。我们的核心见解是:隐写术在能够解码隐藏内容(存在于隐写信号中)的智能体与不能解码的智能体之间,造成了可用信息的不对称性;而这种原本潜在的不对称性,可以从智能体的可观测行为中推断出来。为了形式化这一视角,我们引入了广义$\mathcal{V}$-信息:一个用于衡量输入中可用信息量的效用主义框架。我们利用此框架定义了**隐写间隙**——一种通过比较隐写信号对能解码与不能解码隐藏内容的智能体的下游效用,来量化隐写术的度量。我们通过实验验证了我们的形式化方法,并证明其可用于检测、量化和缓解大语言模型中的隐写式推理。

0
下载
关闭预览

相关内容

大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员