Locket: Robust Feature-Locking Technique for Language Models - 专知论文

会员服务 ·

0

鲁棒 · 语言模型 · Chatbot · 黑盒 · 灵活性 ·

Locket: Robust Feature-Locking Technique for Language Models

翻译：标题：Locket：面向语言模型的鲁棒特性锁定技术

Lipeng He,Vasisht Duddu,N. Asokan

from arxiv, 15 pages

Chatbot service providers (e.g., OpenAI) rely on tiered subscription plans to generate revenue, offering black-box access to basic models for free users and advanced models to paying subscribers. However, this approach is unprofitable and inflexible for the users. A pay-to-unlock scheme for premium features (e.g., math, coding) offers a more sustainable alternative. Enabling such a scheme requires a feature-locking technique (FLoTE) that is (i) effective in refusing locked features, (ii) utility-preserving for unlocked features, (iii) robust against evasion or unauthorized credential sharing, and (iv) scalable to multiple features and clients. Existing FLoTEs (e.g., password-locked models) fail to meet these criteria. To fill this gap, we present Locket, the first robust and scalable FLoTE to enable pay-to-unlock schemes. We develop a framework for adversarial training and merging of feature-locking adapters, which enables Locket to selectively enable or disable specific features of a model. Evaluation shows that Locket is effective ($100$% refusal rate), utility-preserving ($\leq 7$% utility degradation), robust ($\leq 5$% attack success rate), and scalable to multiple features and clients.

翻译：摘要：聊天机器人服务提供商（如OpenAI）依赖分级订阅计划来创造收入，为免费用户提供基础模型的黑盒访问权限，而付费用户则可使用高级模型。然而，这种方式对用户而言利润较低且缺乏灵活性。针对高级特性（如数学运算、编程能力）的按需付费解锁方案提供了一种更可持续的替代方案。实现此类方案需要一种特性锁定技术（FLoTE），其需满足：（i）有效拒绝锁定特性，（ii）保持解锁特性的实用价值，（iii）抗规避或未授权凭证共享的鲁棒性，以及（iv）可扩展至多特性与多客户端。现有FLoTE（如密码锁定模型）无法满足这些标准。为填补这一空白，我们提出Locket——首个支持按需付费解锁方案的鲁棒且可扩展的FLoTE。我们开发了对抗训练与特性锁定适配器融合框架，使Locket能够选择性启用或禁用模型的特定特性。评估表明，Locket具有有效性（100%拒绝率）、实用性保持（≤7%效用下降）、鲁棒性（≤5%攻击成功率）及对多特性与多客户端的可扩展性。

0

相关内容

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

7+阅读 · 5月12日

DeepSeek最新开源的R1推理模型：DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

DeepSeek最新开源的R1推理模型：DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

专知会员服务

45+阅读 · 2025年1月21日

领域特定基础模型概述：关键技术、应用与挑战

领域特定基础模型概述：关键技术、应用与挑战

专知会员服务

26+阅读 · 2024年9月9日

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

专知会员服务

126+阅读 · 2024年1月5日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

如何提示？浙大最新《大型语言模型提示框架》综述

如何提示？浙大最新《大型语言模型提示框架》综述

专知会员服务

83+阅读 · 2023年11月23日

大模型长上下文核心技术是什么？南大等《长上下文大型语言模型中的Transformer架构》综述

大模型长上下文核心技术是什么？南大等《长上下文大型语言模型中的Transformer架构》综述

专知会员服务

66+阅读 · 2023年11月22日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

ChatGPT 专题| ChatGPT报告：从ChatGPT到生成式AI：人工智能新范式，重新定义生产力

ChatGPT 专题| ChatGPT报告：从ChatGPT到生成式AI：人工智能新范式，重新定义生产力

专知会员服务

275+阅读 · 2023年2月13日

鲁棒模式识别研究进展

鲁棒模式识别研究进展

专知会员服务

41+阅读 · 2020年8月9日

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

CSDN

11+阅读 · 2023年4月13日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

【Hugging Face硬核书】Transformer自然语言处理(Hugging Face)：构建语言应用

【Hugging Face硬核书】Transformer自然语言处理(Hugging Face)：构建语言应用

专知

34+阅读 · 2022年4月7日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

产业智能官

14+阅读 · 2019年2月5日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

Tensorflow实战系列，手把手教你构建一个Chatbot（博文+视频）

Tensorflow实战系列，手把手教你构建一个Chatbot（博文+视频）

专知

10+阅读 · 2017年12月30日

视频教程【第10期】 | 如何通过调用API来搭建一个聊天机器人

视频教程【第10期】 | 如何通过调用API来搭建一个聊天机器人

AI100

10+阅读 · 2017年8月25日

连续变量量子密钥分发系统过噪声抑制技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

连续变量量子密钥分发协议后选择技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Arxiv

0+阅读 · 4月17日

Critical-CoT: A Robust Defense Framework against Reasoning-Level Backdoor Attacks in Large Language Models

Arxiv

0+阅读 · 4月16日

Ro-SLM: Onboard Small Language Models for Robot Task Planning and Operation Code Generation

Arxiv

0+阅读 · 4月14日

Towards Position-Robust Talent Recommendation via Large Language Models

Arxiv

0+阅读 · 4月2日

Neuro-RIT: Neuron-Guided Instruction Tuning for Robust Retrieval-Augmented Language Model

Arxiv

0+阅读 · 4月2日

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Arxiv

0+阅读 · 3月24日

Robust Safety Monitoring of Language Models via Activation Watermarking

Arxiv

0+阅读 · 3月24日

InferDPT: Privacy-Preserving Inference for Closed-box Large Language Model

Arxiv

0+阅读 · 3月18日

Directional Embedding Smoothing for Robust Vision Language Models

Arxiv

0+阅读 · 3月16日

SafePickle: Robust and Generic ML Detection of Malicious Pickle-based ML Models

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

0+阅读 · 今天16:48

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

0+阅读 · 今天16:47

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

3+阅读 · 今天14:04

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

3+阅读 · 今天13:54

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

6+阅读 · 今天13:49

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

4+阅读 · 今天13:38

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

5+阅读 · 今天13:37

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

5+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

相关VIP内容

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

7+阅读 · 5月12日

DeepSeek最新开源的R1推理模型：DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

DeepSeek最新开源的R1推理模型：DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

专知会员服务

45+阅读 · 2025年1月21日

领域特定基础模型概述：关键技术、应用与挑战

领域特定基础模型概述：关键技术、应用与挑战

专知会员服务

26+阅读 · 2024年9月9日

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

专知会员服务

126+阅读 · 2024年1月5日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

如何提示？浙大最新《大型语言模型提示框架》综述

如何提示？浙大最新《大型语言模型提示框架》综述

专知会员服务

83+阅读 · 2023年11月23日

大模型长上下文核心技术是什么？南大等《长上下文大型语言模型中的Transformer架构》综述

大模型长上下文核心技术是什么？南大等《长上下文大型语言模型中的Transformer架构》综述

专知会员服务

66+阅读 · 2023年11月22日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

ChatGPT 专题| ChatGPT报告：从ChatGPT到生成式AI：人工智能新范式，重新定义生产力

ChatGPT 专题| ChatGPT报告：从ChatGPT到生成式AI：人工智能新范式，重新定义生产力

专知会员服务

275+阅读 · 2023年2月13日

鲁棒模式识别研究进展

鲁棒模式识别研究进展

专知会员服务

41+阅读 · 2020年8月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

CSDN

11+阅读 · 2023年4月13日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

【Hugging Face硬核书】Transformer自然语言处理(Hugging Face)：构建语言应用

【Hugging Face硬核书】Transformer自然语言处理(Hugging Face)：构建语言应用

专知

34+阅读 · 2022年4月7日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

产业智能官

14+阅读 · 2019年2月5日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

Tensorflow实战系列，手把手教你构建一个Chatbot（博文+视频）

Tensorflow实战系列，手把手教你构建一个Chatbot（博文+视频）

专知

10+阅读 · 2017年12月30日

视频教程【第10期】 | 如何通过调用API来搭建一个聊天机器人

视频教程【第10期】 | 如何通过调用API来搭建一个聊天机器人

AI100

10+阅读 · 2017年8月25日

相关论文

On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Arxiv

0+阅读 · 4月17日

Critical-CoT: A Robust Defense Framework against Reasoning-Level Backdoor Attacks in Large Language Models

Arxiv

0+阅读 · 4月16日

Ro-SLM: Onboard Small Language Models for Robot Task Planning and Operation Code Generation

Arxiv

0+阅读 · 4月14日

Towards Position-Robust Talent Recommendation via Large Language Models

Arxiv

0+阅读 · 4月2日

Neuro-RIT: Neuron-Guided Instruction Tuning for Robust Retrieval-Augmented Language Model

Arxiv

0+阅读 · 4月2日

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Arxiv

0+阅读 · 3月24日

Robust Safety Monitoring of Language Models via Activation Watermarking

Arxiv

0+阅读 · 3月24日

InferDPT: Privacy-Preserving Inference for Closed-box Large Language Model

Arxiv

0+阅读 · 3月18日

Directional Embedding Smoothing for Robust Vision Language Models

Arxiv

0+阅读 · 3月16日

SafePickle: Robust and Generic ML Detection of Malicious Pickle-based ML Models

Arxiv

0+阅读 · 2月23日

相关基金

连续变量量子密钥分发系统过噪声抑制技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

连续变量量子密钥分发协议后选择技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员