Least privilege is a core security principle: grant each request only the minimum access needed to achieve its goal. Deployed language models almost never follow it, instead being exposed through a single API endpoint that serves all users and requests. This gap exists not because least privilege would be unhelpful; deployments would benefit greatly from reducing unnecessary capability exposure. The real obstacle is definitional and mechanistic: what does "access" mean inside a language model, and how can we enforce it without retraining or deploying multiple models? We take inspiration from least privilege in computer systems and define a class of models called least-privilege language models, where privilege is reachable internal computation during the forward pass. In this view, lowering privilege literally shrinks the model's accessible function class, as opposed to denying access via learned policies. We formalize deployment-time control as a monitor-allocator-enforcer stack, separating (i) request-time signals, (ii) a decision rule that allocates privilege, and (iii) an inference-time mechanism that selects privilege. We then propose Nested Least-Privilege Networks, a shape-preserving, rank-indexed intervention that provides a smooth, reversible control knob. We show that this knob yields policy-usable privilege-utility frontiers and enables selective suppression of targeted capabilities with limited collateral degradation across various policies. Most importantly, we argue for a new deployment paradigm that challenges the premise that language models can only be controlled at the output level.


翻译:最小特权原则是安全领域的核心理念:仅授予每个请求实现其目标所需的最小访问权限。然而,已部署的语言模型几乎从未遵循这一原则,而是通过单一API端点服务所有用户和请求。这一差距的存在并非因为最小特权原则无益——减少不必要的能力暴露本可使部署系统显著受益。真正的障碍在于定义与机制层面:在语言模型内部,“访问权限”究竟指什么?我们如何在不重新训练或部署多个模型的前提下实现权限控制?受计算机系统中最小特权原则的启发,我们定义了一类称为最小特权语言模型的模型,其中特权被定义为前向传播过程中可触及的内部计算。在此视角下,降低特权实质上会缩小模型可访问的函数类,而非通过习得策略进行访问拒绝。我们将部署时控制形式化为监控-分配-执行三层架构,分别对应:(i)请求时信号;(ii)分配特权的决策规则;(iii)推理时选择权限的机制。随后,我们提出嵌套最小特权网络——一种保持结构形状、按秩索引的干预方法,提供平滑可逆的控制旋钮。实验表明,该旋钮能生成策略可用的特权-效用边界,并在多种策略下实现对特定能力的定向抑制,同时将连带性能衰减控制在有限范围内。最重要的是,我们主张建立一种新的部署范式,挑战“语言模型仅能在输出层面进行控制”的既有前提。

0
下载
关闭预览

相关内容

【ICLR2026】基于小型语言模型的终身智能体
专知会员服务
20+阅读 · 4月27日
大语言模型平台在国防情报应用中的对比
专知会员服务
17+阅读 · 4月22日
《军事大语言模型的拒绝率测量与消除》
专知会员服务
13+阅读 · 3月13日
运用小型语言模型解锁战术边缘人工智能优势
专知会员服务
30+阅读 · 2025年9月7日
小型语言模型综述
专知会员服务
56+阅读 · 2024年10月29日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
少即是多?非参数语言模型,68页ppt
专知会员服务
24+阅读 · 2020年11月22日
无监督分词和句法分析!原来BERT还可以这样用
PaperWeekly
12+阅读 · 2020年6月17日
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月4日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
【ICLR2026】基于小型语言模型的终身智能体
专知会员服务
20+阅读 · 4月27日
大语言模型平台在国防情报应用中的对比
专知会员服务
17+阅读 · 4月22日
《军事大语言模型的拒绝率测量与消除》
专知会员服务
13+阅读 · 3月13日
运用小型语言模型解锁战术边缘人工智能优势
专知会员服务
30+阅读 · 2025年9月7日
小型语言模型综述
专知会员服务
56+阅读 · 2024年10月29日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
少即是多?非参数语言模型,68页ppt
专知会员服务
24+阅读 · 2020年11月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员