Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control


翻译:精确属性强度控制——即生成具有特定用户定义属性强度的大语言模型输出——对于适应多样化用户期望的人工智能系统至关重要。然而,当前的大语言模型对齐方法通常仅提供方向性或开放式的指导,无法可靠地实现精确的属性强度。我们通过三个关键设计来解决这一局限性:(1) 将精确属性强度控制重新表述为目标达成问题,而非简单的最大化;(2) 通过时序差分学习训练一个轻量级价值函数,以从部分生成内容预测最终的属性强度分数,从而引导大语言模型输出;(3) 对隐藏表征实施基于梯度的干预,以精确引导模型朝向特定的属性强度目标。我们的方法实现了对属性强度的细粒度、连续控制,超越了简单的方向性对齐。在LLaMA-3.2-3b和Phi-4-mini上的实验证实了我们的方法能够以高准确度将文本生成引导至用户指定的属性强度。最后,我们在三个下游任务中展示了效率提升:偏好数据合成、帕累托前沿近似与优化,以及用于无干预推理的对齐行为蒸馏。我们的代码可在 https://github.com/Pre-Control/pre-control 获取。

0
下载
关闭预览

相关内容

一个具体事物,总是有许许多多的性质与关系,我们把一个事物的性质与关系,都叫作事物的属性。 事物与属性是不可分的,事物都是有属性的事物,属性也都是事物的属性。 一个事物与另一个事物的相同或相异,也就是一个事物的属性与另一事物的属性的相同或相异。 由于事物属性的相同或相异,客观世界中就形成了许多不同的事物类。具有相同属性的事物就形成一类,具有不同属性的事物就分别地形成不同的类。
【斯坦福大学Xiang Lisa Li博士论文】控制语言模型
专知会员服务
22+阅读 · 2025年6月11日
大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
《大型语言模型指令调优》综述
专知会员服务
73+阅读 · 2023年8月27日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员