Activation Steering via Generative Causal Mediation - 专知论文

会员服务 ·

0

Activation Steering via Generative Causal Mediation

翻译：通过生成式因果中介的激活引导

Aruna Sankaranarayanan,Amir Zur,Atticus Geiger,Dylan Hadfield-Menell

Where should we intervene in a language model (LM) to localize and control behaviors that are diffused across many tokens of a long-form response? We introduce Generative Causal Mediation (GCM), a procedure for selecting model components (e.g., attention heads) from contrastive long-form responses, to steer such diffuse concepts (e.g., talk in verse vs. talk in prose). In GCM, we first construct a dataset of contrasting behavioral inputs and long-form responses. Then, we quantify how model components mediate the concept and select the strongest mediators for steering. We evaluate GCM on three behaviors--refusal, sycophancy, and style transfer--across three language models. GCM successfully localizes concepts expressed in long-form responses and outperforms correlational probe-based baselines when steering with a sparse set of attention heads. Together, these results demonstrate that GCM provides an effective approach for localizing from and controlling the long-form responses of LMs.

翻译：我们应当如何在语言模型的长期响应中，对分散于多个令牌的行为进行定位与控制？本文提出生成式因果中介（GCM）——一种从对比性长期响应中选取模型组件（如注意力头）以引导此类分散概念（例如以诗歌形式对话vs.以散文形式对话）的方法。在GCM中，我们首先构建包含行为输入与长期响应的对比数据集，继而量化模型组件对概念的介导程度，并选取最强介导组件进行引导。我们在三个语言模型上针对三种行为——拒绝、谄媚与风格迁移——评估了GCM。结果表明，GCM成功定位了长期响应中表达的概念，且在通过稀疏注意力头集进行引导时，其性能优于基于相关性探针的基线方法。综合来看，这些结果证明GCM为定位与控制语言模型长期响应提供了一种有效方法。

0

相关内容

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

专知会员服务

20+阅读 · 2025年7月5日

【博士论文】《自然语言处理中的因果推理》

【博士论文】《自然语言处理中的因果推理》

专知会员服务

26+阅读 · 2025年4月25日

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

专知会员服务

50+阅读 · 2024年3月17日

因果涌现：概念、理论到应用

因果涌现：概念、理论到应用

专知会员服务

70+阅读 · 2023年8月5日

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

专知会员服务

45+阅读 · 2023年1月31日

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

专知会员服务

47+阅读 · 2023年1月5日

因果如何用于推荐？清华等最新《推荐系统中的因果推理》综述论文，29页pdf阐述因果推荐方法体系

因果如何用于推荐？清华等最新《推荐系统中的因果推理》综述论文，29页pdf阐述因果推荐方法体系

专知会员服务

48+阅读 · 2022年8月31日

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

专知会员服务

108+阅读 · 2022年4月28日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

体内翻译过程中G四链体的形成机制及功能探讨

国家自然科学基金

0+阅读 · 2015年12月31日

人类转录因子基因家族调控网络进化模式研究

国家自然科学基金

0+阅读 · 2015年12月31日

冲动性个体的决策加工模式与神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

细胞分化过程中长非编码RNA介导的三维基因组遗传信息传递网络的解析

国家自然科学基金

0+阅读 · 2015年12月31日

转录中介体在体细胞重编程中的表观遗传学调控作用

国家自然科学基金

0+阅读 · 2015年12月31日

情绪对动作控制影响的神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

互联网环境下新创企业创业导向的生成机理及演化研究

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络中信息主体的行为模式分析及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

集群智能诱导涌现方法在航空集群C2中的应用研究

国家自然科学基金

10+阅读 · 2014年12月31日

生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究

国家自然科学基金

0+阅读 · 2014年12月31日

Modeling Behavioral Intensity and Transitions for Generative Recommendation

Arxiv

0+阅读 · 4月27日

Modeling Heterogeneous Mediation Effects in Survival Analysis via an Interpretable M-Learner Framework

Arxiv

0+阅读 · 4月15日

Incentive-Aware Multi-Fidelity Optimization for Generative Advertising in Large Language Models

Arxiv

0+阅读 · 4月7日

Drift-Aware Continual Tokenization for Generative Recommendation

Arxiv

0+阅读 · 3月31日

Activation Steering for Masked Diffusion Language Models

Arxiv

0+阅读 · 3月29日

Causally-Guided Diffusion for Stable Feature Selection

Arxiv

0+阅读 · 3月21日

Kolmogorov-Arnold causal generative models

Arxiv

0+阅读 · 3月20日

ContextBench: Modifying Contexts for Targeted Latent Activation

Arxiv

0+阅读 · 3月6日

Monitoring Emergent Reward Hacking During Generation via Internal Activations

Arxiv

0+阅读 · 3月4日

Individualized Dynamic Mediation Analysis Using Latent Factor Models

Arxiv

0+阅读 · 2月27日

VIP会员

文章信息

相关主题

最新内容

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

3+阅读 · 今天8:04

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

3+阅读 · 今天7:59

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

3+阅读 · 今天7:56

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

3+阅读 · 今天7:50

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

3+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

4+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

12+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

7+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

6+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

4+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

10+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

6+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

9+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

11+阅读 · 7月26日

相关VIP内容

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

专知会员服务

20+阅读 · 2025年7月5日

【博士论文】《自然语言处理中的因果推理》

【博士论文】《自然语言处理中的因果推理》

专知会员服务

26+阅读 · 2025年4月25日

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

专知会员服务

50+阅读 · 2024年3月17日

因果涌现：概念、理论到应用

因果涌现：概念、理论到应用

专知会员服务

70+阅读 · 2023年8月5日

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

专知会员服务

45+阅读 · 2023年1月31日

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

专知会员服务

47+阅读 · 2023年1月5日

因果如何用于推荐？清华等最新《推荐系统中的因果推理》综述论文，29页pdf阐述因果推荐方法体系

因果如何用于推荐？清华等最新《推荐系统中的因果推理》综述论文，29页pdf阐述因果推荐方法体系

专知会员服务

48+阅读 · 2022年8月31日

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

专知会员服务

108+阅读 · 2022年4月28日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

热门VIP内容

开通专知VIP会员享更多权益服务

《异构人类团队的协作决策过程混合建模研究》

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

面向国防作战的最佳自主与蜂群无人机技术

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

相关资讯

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Modeling Behavioral Intensity and Transitions for Generative Recommendation

Arxiv

0+阅读 · 4月27日

Modeling Heterogeneous Mediation Effects in Survival Analysis via an Interpretable M-Learner Framework

Arxiv

0+阅读 · 4月15日

Incentive-Aware Multi-Fidelity Optimization for Generative Advertising in Large Language Models

Arxiv

0+阅读 · 4月7日

Drift-Aware Continual Tokenization for Generative Recommendation

Arxiv

0+阅读 · 3月31日

Activation Steering for Masked Diffusion Language Models

Arxiv

0+阅读 · 3月29日

Causally-Guided Diffusion for Stable Feature Selection

Arxiv

0+阅读 · 3月21日

Kolmogorov-Arnold causal generative models

Arxiv

0+阅读 · 3月20日

ContextBench: Modifying Contexts for Targeted Latent Activation

Arxiv

0+阅读 · 3月6日

Monitoring Emergent Reward Hacking During Generation via Internal Activations

Arxiv

0+阅读 · 3月4日

Individualized Dynamic Mediation Analysis Using Latent Factor Models

Arxiv

0+阅读 · 2月27日

相关基金

体内翻译过程中G四链体的形成机制及功能探讨

国家自然科学基金

0+阅读 · 2015年12月31日

人类转录因子基因家族调控网络进化模式研究

国家自然科学基金

0+阅读 · 2015年12月31日

冲动性个体的决策加工模式与神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

细胞分化过程中长非编码RNA介导的三维基因组遗传信息传递网络的解析

国家自然科学基金

0+阅读 · 2015年12月31日

转录中介体在体细胞重编程中的表观遗传学调控作用

国家自然科学基金

0+阅读 · 2015年12月31日

情绪对动作控制影响的神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

互联网环境下新创企业创业导向的生成机理及演化研究

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络中信息主体的行为模式分析及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

集群智能诱导涌现方法在航空集群C2中的应用研究

国家自然科学基金

10+阅读 · 2014年12月31日

生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员