Surgical Activation Steering via Generative Causal Mediation - 专知论文

会员服务 ·

0

语言模型 · 词元 · 构建 · 包含 · 因子 ·

Surgical Activation Steering via Generative Causal Mediation

翻译：基于生成因果中介的手术式激活调控

Aruna Sankaranarayanan,Amir Zur,Atticus Geiger,Dylan Hadfield-Menell

Where should we intervene in a language model (LM) to control behaviors that are diffused across many tokens of a long-form response? We introduce Generative Causal Mediation (GCM), a procedure for selecting model components, e.g., attention heads, to steer a binary concept (e.g., talk in verse vs. talk in prose) from contrastive long-form responses. In GCM, we first construct a dataset of contrasting inputs and responses. Then, we quantify how individual model components mediate the contrastive concept and select the strongest mediators for steering. We evaluate GCM on three tasks--refusal, sycophancy, and style transfer--across three language models. GCM successfully localizes concepts expressed in long-form responses and consistently outperforms correlational probe-based baselines when steering with a sparse set of attention heads. Together, these results demonstrate that GCM provides an effective approach for localizing and controlling the long-form responses of LMs.

翻译：我们应在语言模型（LM）的何处进行干预，以控制在长文本响应中分散于多个词元的行为？本文提出生成因果中介（Generative Causal Mediation, GCM），这是一种用于选择模型组件（例如注意力头）以从对比性长文本响应中调控二元概念（例如以诗歌形式表达与以散文形式表达）的方法。在GCM中，我们首先构建包含对比性输入与响应的数据集。随后，我们量化各个模型组件如何中介对比性概念，并选择最强的中介因子用于调控。我们在三种语言模型上针对三项任务——拒绝性回应、迎合性回应与风格迁移——评估GCM。GCM成功定位了长文本响应中表达的概念，并且在使用稀疏注意力头集合进行调控时，始终优于基于相关性探针的基线方法。综上，这些结果表明GCM为定位与控制语言模型的长文本响应提供了一种有效途径。

0

相关内容

语言模型

【博士论文】《自然语言处理中的因果推理》

【博士论文】《自然语言处理中的因果推理》

专知会员服务

24+阅读 · 2025年4月25日

复杂处理下的因果推断：综述

复杂处理下的因果推断：综述

专知会员服务

34+阅读 · 2024年7月22日

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

专知会员服务

50+阅读 · 2024年3月17日

大模型如何统一生成和嵌入？最新《生成式表示指令微调》论文详细解答

大模型如何统一生成和嵌入？最新《生成式表示指令微调》论文详细解答

专知会员服务

44+阅读 · 2024年2月18日

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

专知会员服务

45+阅读 · 2023年1月31日

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

专知会员服务

46+阅读 · 2023年1月5日

核因果模型:治疗效果、反事实、中介和代理，57页ppt

核因果模型:治疗效果、反事实、中介和代理，57页ppt

专知会员服务

30+阅读 · 2022年8月30日

因果机器学习模型-核方法:治疗效果、反事实、中介和代理，附72页ppt与视频

因果机器学习模型-核方法:治疗效果、反事实、中介和代理，附72页ppt与视频

专知会员服务

47+阅读 · 2022年7月17日

什么是因果机器学习？UCL&牛津大学最新《因果机器学习》书册，165页pdf阐述因果机器学习体系

什么是因果机器学习？UCL&牛津大学最新《因果机器学习》书册，165页pdf阐述因果机器学习体系

专知会员服务

291+阅读 · 2022年7月1日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

【学界】融合对抗学习的因果关系抽取

【学界】融合对抗学习的因果关系抽取

GAN生成式对抗网络

16+阅读 · 2018年7月14日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

植物根系发育中SHR介导平周分裂的调控机制

国家自然科学基金

0+阅读 · 2016年12月31日

HERC2P2调控DNA损伤修复及胶质瘤TMZ化疗增敏：ceRNA作用的新机制

国家自然科学基金

0+阅读 · 2015年12月31日

人类转录因子基因家族调控网络进化模式研究

国家自然科学基金

0+阅读 · 2015年12月31日

Med25作为共激活因子对糖皮质激素受体GRα介导的CYP2C9的调控机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

苹果酸酶代谢在基因表达调控中的作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

溶酶体自我稳定通路对中性粒细胞胞外陷阱（NETs）形成的调控效应及机制

国家自然科学基金

0+阅读 · 2015年12月31日

转录因子SOX2与长链非编码RNA在基因组调控中的相互作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

转录中介体在体细胞重编程中的表观遗传学调控作用

国家自然科学基金

0+阅读 · 2015年12月31日

应用系统生物学方法研究结直肠癌干细胞分子调控网络及临床意义

国家自然科学基金

0+阅读 · 2015年12月31日

脑皮层干细胞分化兴奋性神经元的基因调控机制的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Testing Full Mediation of Treatment Effects and the Identifiability of Causal Mechanisms

Arxiv

0+阅读 · 3月4日

Monitoring Emergent Reward Hacking During Generation via Internal Activations

Arxiv

0+阅读 · 3月4日

Individualized Dynamic Mediation Analysis Using Latent Factor Models

Arxiv

0+阅读 · 2月27日

Individualized Causal Effects under Network Interference with Combinatorial Treatments

Arxiv

0+阅读 · 2月23日

Causal Effect Estimation with Latent Textual Treatments

Arxiv

0+阅读 · 2月17日

Protect$^*$: Steerable Retrosynthesis through Neuro-Symbolic State Encoding

Arxiv

0+阅读 · 2月13日

Evaluating Prompt Engineering Strategies for Sentiment Control in AI-Generated Texts

Arxiv

0+阅读 · 2月6日

Causal-Adapter: Taming Text-to-Image Diffusion for Faithful Counterfactual Generation

Arxiv

0+阅读 · 2月4日

Fine-Grained Activation Steering: Steering Less, Achieving More

Arxiv

0+阅读 · 2月4日

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

1+阅读 · 35分钟前

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

1+阅读 · 47分钟前

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

1+阅读 · 51分钟前

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

1+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

2+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

1+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

1+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

12+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

【博士论文】《自然语言处理中的因果推理》

【博士论文】《自然语言处理中的因果推理》

专知会员服务

24+阅读 · 2025年4月25日

复杂处理下的因果推断：综述

复杂处理下的因果推断：综述

专知会员服务

34+阅读 · 2024年7月22日

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

专知会员服务

50+阅读 · 2024年3月17日

大模型如何统一生成和嵌入？最新《生成式表示指令微调》论文详细解答

大模型如何统一生成和嵌入？最新《生成式表示指令微调》论文详细解答

专知会员服务

44+阅读 · 2024年2月18日

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

专知会员服务

45+阅读 · 2023年1月31日

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

专知会员服务

46+阅读 · 2023年1月5日

核因果模型:治疗效果、反事实、中介和代理，57页ppt

核因果模型:治疗效果、反事实、中介和代理，57页ppt

专知会员服务

30+阅读 · 2022年8月30日

因果机器学习模型-核方法:治疗效果、反事实、中介和代理，附72页ppt与视频

因果机器学习模型-核方法:治疗效果、反事实、中介和代理，附72页ppt与视频

专知会员服务

47+阅读 · 2022年7月17日

什么是因果机器学习？UCL&牛津大学最新《因果机器学习》书册，165页pdf阐述因果机器学习体系

什么是因果机器学习？UCL&牛津大学最新《因果机器学习》书册，165页pdf阐述因果机器学习体系

专知会员服务

291+阅读 · 2022年7月1日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

【学界】融合对抗学习的因果关系抽取

【学界】融合对抗学习的因果关系抽取

GAN生成式对抗网络

16+阅读 · 2018年7月14日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

Testing Full Mediation of Treatment Effects and the Identifiability of Causal Mechanisms

Arxiv

0+阅读 · 3月4日

Monitoring Emergent Reward Hacking During Generation via Internal Activations

Arxiv

0+阅读 · 3月4日

Individualized Dynamic Mediation Analysis Using Latent Factor Models

Arxiv

0+阅读 · 2月27日

Individualized Causal Effects under Network Interference with Combinatorial Treatments

Arxiv

0+阅读 · 2月23日

Causal Effect Estimation with Latent Textual Treatments

Arxiv

0+阅读 · 2月17日

Protect$^*$: Steerable Retrosynthesis through Neuro-Symbolic State Encoding

Arxiv

0+阅读 · 2月13日

Evaluating Prompt Engineering Strategies for Sentiment Control in AI-Generated Texts

Arxiv

0+阅读 · 2月6日

Causal-Adapter: Taming Text-to-Image Diffusion for Faithful Counterfactual Generation

Arxiv

0+阅读 · 2月4日

Fine-Grained Activation Steering: Steering Less, Achieving More

Arxiv

0+阅读 · 2月4日

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

Arxiv

0+阅读 · 2月2日

相关基金

植物根系发育中SHR介导平周分裂的调控机制

国家自然科学基金

0+阅读 · 2016年12月31日

HERC2P2调控DNA损伤修复及胶质瘤TMZ化疗增敏：ceRNA作用的新机制

国家自然科学基金

0+阅读 · 2015年12月31日

人类转录因子基因家族调控网络进化模式研究

国家自然科学基金

0+阅读 · 2015年12月31日

Med25作为共激活因子对糖皮质激素受体GRα介导的CYP2C9的调控机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

苹果酸酶代谢在基因表达调控中的作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

溶酶体自我稳定通路对中性粒细胞胞外陷阱（NETs）形成的调控效应及机制

国家自然科学基金

0+阅读 · 2015年12月31日

转录因子SOX2与长链非编码RNA在基因组调控中的相互作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

转录中介体在体细胞重编程中的表观遗传学调控作用

国家自然科学基金

0+阅读 · 2015年12月31日

应用系统生物学方法研究结直肠癌干细胞分子调控网络及临床意义

国家自然科学基金

0+阅读 · 2015年12月31日

脑皮层干细胞分化兴奋性神经元的基因调控机制的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员