Controlling the output of Large Language Models (LLMs) is a central challenge for their reliable deployment, yet a clear understanding of the involved trade-offs remains elusive. Current approaches to conditioning are often evaluated with a narrow focus on their effectiveness at injecting or removing a target concept, neglecting generation quality. We systematically investigate a range of conditioning methods in both injection and removal scenarios. We find that efficient steering methods frequently achieve conditioning at a steep cost to fluency. Furthermore, we identify a critical yet previously overlooked interaction with the training paradigm: activation steering methods are far less effective on instruction-tuned models than on their base counterparts. Simple prompting and full-fledged supervised fine-tuning, on the other hand, are viable options for concept injection, but are not as good at concept removal. Finally, cheaply computed textual metrics highly correlate to costly LLM-as-judge scores, and provide insights on the behavior of conditioning methods.


翻译:控制大语言模型的输出是其可靠部署的核心挑战,然而对其中涉及的权衡机制仍缺乏清晰理解。当前条件控制方法常以单一维度评估其对目标概念的注入或移除效果,忽视了生成质量。我们系统研究了多种条件控制方法在概念注入与移除场景中的表现,发现高效引导方法常以显著牺牲文本流畅性为代价实现条件控制。此外,我们识别出一个被忽视的关键交互现象:激活引导方法在指令微调模型上的效果远逊于基础模型。相比之下,简单提示方法和完整监督微调虽对概念注入有效,但在概念移除方面表现欠佳。最后,低计算成本的文本指标与高成本的"大模型评审"评分高度相关,为条件控制方法的行为分析提供了洞见。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
融合知识图谱的大语言模型研究综述
专知会员服务
38+阅读 · 2025年4月18日
大语言模型在规划与调度问题上的应用
专知会员服务
53+阅读 · 2025年1月12日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员