Masked diffusion language models (MDLMs) generate text through an iterative denoising process. They have recently gained attention due to mask-parallel decoding and competitive performance with autoregressive large language models. However, effective mechanisms for inference-time control and steering in MDLMs remain largely unexplored. We present an activation-steering framework for MDLMs that computes layer-wise steering vectors from a single forward pass using contrastive examples, without simulating the denoising trajectory. These directions are applied at every reverse-diffusion step, yielding an efficient inference-time control mechanism. Experiments on LLaDA-8B-Instruct demonstrate reliable modulation of high-level attributes, with ablations examining the effects of steering across transformer sub-modules and token scope (prompt vs.\ response).


翻译:掩蔽扩散语言模型(MDLMs)通过迭代去噪过程生成文本。它们最近因掩蔽并行解码能力以及与自回归大语言模型相竞争的性能而受到关注。然而,MDLMs中有效的推理时控制与导向机制在很大程度上仍未得到探索。我们提出了一种用于MDLMs的激活导向框架,该框架通过对比示例在单次前向传播中计算层间导向向量,无需模拟去噪轨迹。这些方向在每一个反向扩散步骤中被应用,从而形成一种高效的推理时控制机制。在LLaDA-8B-Instruct上的实验证明了其对高层属性的可靠调控能力,并通过消融实验检验了导向在Transformer子模块及词元范围(提示与响应)上的影响。

0
下载
关闭预览

相关内容

多模态大语言模型下游调优中“保持自我”的重要性
专知会员服务
17+阅读 · 2025年12月15日
扩散语言模型综述
专知会员服务
18+阅读 · 2025年8月15日
用于语言生成的离散扩散模型
专知会员服务
11+阅读 · 2025年7月10日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
生成式人工智能的扩散模型概述
专知会员服务
66+阅读 · 2024年12月8日
《多语言大型语言模型:系统综述》
专知会员服务
49+阅读 · 2024年11月21日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月29日
Arxiv
0+阅读 · 1月23日
VIP会员
相关VIP内容
多模态大语言模型下游调优中“保持自我”的重要性
专知会员服务
17+阅读 · 2025年12月15日
扩散语言模型综述
专知会员服务
18+阅读 · 2025年8月15日
用于语言生成的离散扩散模型
专知会员服务
11+阅读 · 2025年7月10日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
生成式人工智能的扩散模型概述
专知会员服务
66+阅读 · 2024年12月8日
《多语言大型语言模型:系统综述》
专知会员服务
49+阅读 · 2024年11月21日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员