This paper proposes a control-based framework for aligning large language models (LLMs) by leveraging a control barrier function (CBF) to ensure user-desirable text generation. The presented framework applies the CBF safety filter to the predicted token generated from the baseline LLM, to intervene in the generated text. The safety filter includes two significant advantages: this safety filter is an add-on type, allowing it to be used for alignment purposes without fine-tuning the baseline LLM, and if there is an evaluation model regarding the desired alignment, it can be directly applied to the filter design. The overall text-generation system is implemented with open-source language models, aiming to generate positive text.


翻译:本文提出一种基于控制理论的框架,用于对齐大型语言模型(LLMs),通过利用控制屏障函数(CBF)确保生成符合用户期望的文本。该框架将CBF安全过滤器应用于基线LLM生成的预测令牌,以干预生成文本。该安全过滤器具有两大显著优势:首先,它是一种附加型设计,无需对基线LLM进行微调即可用于对齐目的;其次,若存在针对期望对齐目标的评估模型,可直接将其应用于过滤器设计。整个文本生成系统基于开源语言模型实现,旨在生成积极正向的文本。

0
下载
关闭预览

相关内容

[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
18+阅读 · 2024年5月23日
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
58+阅读 · 2024年1月19日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
24+阅读 · 2023年5月10日
【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法
专知会员服务
26+阅读 · 2021年12月27日
专知会员服务
15+阅读 · 2021年7月24日
专知会员服务
12+阅读 · 2021年7月16日
专知会员服务
12+阅读 · 2021年6月20日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习TensorFlow实现集合
专知
10+阅读 · 2018年9月8日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
相关VIP内容
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
18+阅读 · 2024年5月23日
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
58+阅读 · 2024年1月19日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
24+阅读 · 2023年5月10日
【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法
专知会员服务
26+阅读 · 2021年12月27日
专知会员服务
15+阅读 · 2021年7月24日
专知会员服务
12+阅读 · 2021年7月16日
专知会员服务
12+阅读 · 2021年6月20日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习TensorFlow实现集合
专知
10+阅读 · 2018年9月8日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员