Least privilege is a core security principle: grant each request only the minimum access needed to achieve its goal. Deployed language models almost never follow it, instead being exposed through a single API endpoint that serves all users and requests. This gap exists not because least privilege would be unhelpful; deployments would benefit greatly from reducing unnecessary capability exposure. The real obstacle is definitional and mechanistic: what does "access" mean inside a language model, and how can we enforce it without retraining or deploying multiple models? We take inspiration from least privilege in computer systems and define a class of models called least-privilege language models, where privilege is reachable internal computation during the forward pass. In this view, lowering privilege literally shrinks the model's accessible function class, as opposed to denying access via learned policies. We formalize deployment-time control as a monitor-allocator-enforcer stack, separating (i) request-time signals, (ii) a decision rule that allocates privilege, and (iii) an inference-time mechanism that selects privilege. We then propose Nested Least-Privilege Networks, a shape-preserving, rank-indexed intervention that provides a smooth, reversible control knob. We show that this knob yields policy-usable privilege-utility frontiers and enables selective suppression of targeted capabilities with limited collateral degradation across various policies. Most importantly, we argue for a new deployment paradigm that challenges the premise that language models can only be controlled at the output level.


翻译:最小特权原则是安全领域的核心理念:仅授予每个请求实现其目标所需的最小访问权限。然而,已部署的语言模型几乎从未遵循这一原则,而是通过单一API端点服务所有用户和请求。这一差距的存在并非因为最小特权原则无益——减少不必要的能力暴露本可使部署系统显著受益。真正的障碍在于定义与机制层面:在语言模型内部,“访问权限”究竟指什么?我们如何在不重新训练或部署多个模型的前提下实现权限控制?受计算机系统中最小特权原则的启发,我们定义了一类称为最小特权语言模型的模型,其中特权被定义为前向传播过程中可触及的内部计算。在此视角下,降低特权实质上会缩小模型可访问的函数类,而非通过习得策略进行访问拒绝。我们将部署时控制形式化为监控-分配-执行三层架构,分别对应:(i)请求时信号;(ii)分配特权的决策规则;(iii)推理时选择权限的机制。随后,我们提出嵌套最小特权网络——一种保持结构形状、按秩索引的干预方法,提供平滑可逆的控制旋钮。实验表明,该旋钮能生成策略可用的特权-效用边界,并在多种策略下实现对特定能力的定向抑制,同时将连带性能衰减控制在有限范围内。最重要的是,我们主张建立一种新的部署范式,挑战“语言模型仅能在输出层面进行控制”的既有前提。

0
下载
关闭预览

相关内容

《军事大语言模型的拒绝率测量与消除》
专知会员服务
13+阅读 · 3月13日
运用小型语言模型解锁战术边缘人工智能优势
专知会员服务
29+阅读 · 2025年9月7日
小型语言模型综述
专知会员服务
54+阅读 · 2024年10月29日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
少即是多?非参数语言模型,68页ppt
专知会员服务
24+阅读 · 2020年11月22日
无监督分词和句法分析!原来BERT还可以这样用
PaperWeekly
12+阅读 · 2020年6月17日
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月4日
VIP会员
最新内容
美陆军设想无人系统司令部
专知会员服务
1+阅读 · 今天13:45
【博士论文】已对齐人工智能系统的持久脆弱性
专知会员服务
0+阅读 · 今天13:52
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
0+阅读 · 今天13:41
《采用系统思维应对混合战争》125页
专知会员服务
2+阅读 · 今天12:47
战争机器学习:数据生态系统构建(155页)
专知会员服务
6+阅读 · 今天8:10
内省扩散语言模型
专知会员服务
5+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
4+阅读 · 4月14日
相关VIP内容
《军事大语言模型的拒绝率测量与消除》
专知会员服务
13+阅读 · 3月13日
运用小型语言模型解锁战术边缘人工智能优势
专知会员服务
29+阅读 · 2025年9月7日
小型语言模型综述
专知会员服务
54+阅读 · 2024年10月29日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
少即是多?非参数语言模型,68页ppt
专知会员服务
24+阅读 · 2020年11月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员