Language model parameters are known to impose unique (to each model) geometric constraints on their logit outputs, which serves as a signature that identifies the model, but also leaks the model's final layer parameters when an API distributes logits. We investigate more restrictive APIs that expose token rankings (i.e., their ordering by probability, but not the probability values) and find that rankings also constitute a signature: every model has a unique set of feasible top-$k$ rankings for sufficiently large $k$. Furthermore, the ranking signature is the first known (polynomially) unforgeable signature, since finding a model with the same set of feasible rankings is NP-hard. On the security front, we find that token rankings are already sufficient to approximately steal the final layer of the model, similar to logits, though the approximation is too coarse to forge the signature, and can be effectively countered by restricting the API to top-$k$ tokens with sufficiently small $k$. Since the top-$k$ required to present the model signature is generally smaller than the $k$ required to prevent stealing, it is possible for an API to present an unforgeable signature without leaking model parameters.


翻译:已知语言模型参数会对其logit输出施加独特的(对每个模型)几何约束,这构成了识别模型的签名,但当API分发logits时也会泄露模型的最终层参数。我们研究了更受限制的API,这些API仅暴露令牌排名(即按概率排序的顺序,但不给出概率值),并发现排名同样构成签名:对于足够大的$k$,每个模型都有一组独特的可行前$k$排名。此外,排名签名是首个已知的(多项式时间内)不可伪造签名,因为找到具有相同可行排名集的模型是NP难的。在安全性方面,我们发现令牌排名已经足以近似窃取模型的最终层,类似于logits,尽管这种近似过于粗糙而无法伪造签名,并且可以通过将API限制为足够小的前$k$个令牌来有效应对。由于展示模型签名所需的前$k$通常小于防止窃取所需的$k$,因此API可以在不泄露模型参数的情况下呈现不可伪造的签名。

0
下载
关闭预览

相关内容

大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
专知会员服务
27+阅读 · 2021年10月12日
YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩
中国科学院网络数据重点实验室
10+阅读 · 2017年6月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
专知会员服务
27+阅读 · 2021年10月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员