主动因果实验者（ACE）：通过直接偏好优化学习干预策略 (Active Causal Experimentalist (ACE): Learning Intervention Strategies via Direct Preference Optimization) - 专知论文

会员服务 ·

0

偏好优化 · 自适应 · 覆盖 · 信息增益 · 增益 ·

Active Causal Experimentalist (ACE): Learning Intervention Strategies via Direct Preference Optimization

翻译：主动因果实验者（ACE）：通过直接偏好优化学习干预策略

Patrick Cooper,Alvaro Velasquez

from arxiv, 9 pages, 5 figures

Discovering causal relationships requires controlled experiments, but experimentalists face a sequential decision problem: each intervention reveals information that should inform what to try next. Traditional approaches such as random sampling, greedy information maximization, and round-robin coverage treat each decision in isolation, unable to learn adaptive strategies from experience. We propose Active Causal Experimentalist (ACE), which learns experimental design as a sequential policy. Our key insight is that while absolute information gains diminish as knowledge accumulates (making value-based RL unstable), relative comparisons between candidate interventions remain meaningful throughout. ACE exploits this via Direct Preference Optimization, learning from pairwise intervention comparisons rather than non-stationary reward magnitudes. Across synthetic benchmarks, physics simulations, and economic data, ACE achieves 70-71% improvement over baselines at equal intervention budgets (p < 0.001, Cohen's d ~ 2). Notably, the learned policy autonomously discovers that collider mechanisms require concentrated interventions on parent variables, a theoretically-grounded strategy that emerges purely from experience. This suggests preference-based learning can recover principled experimental strategies, complementing theory with learned domain adaptation.

翻译：发现因果关系需要受控实验，但实验者面临一个序贯决策问题：每次干预所揭示的信息都应指导后续尝试的方向。传统方法如随机抽样、贪婪信息最大化与轮询覆盖均孤立处理每个决策，无法从经验中学习自适应策略。我们提出主动因果实验者（ACE），将实验设计作为序贯策略进行学习。我们的核心洞见在于：虽然绝对信息增益随知识积累而递减（导致基于价值的强化学习不稳定），但候选干预间的相对比较始终具有意义。ACE通过直接偏好优化利用这一特性，从成对干预比较中学习，而非依赖非平稳的奖励数值。在合成基准测试、物理模拟与经济数据中，ACE在相同干预预算下较基线方法实现70-71%的性能提升（p < 0.001，Cohen's d ~ 2）。值得注意的是，学习得到的策略自主发现对撞机机制需集中干预父变量——这一理论支撑的策略完全从经验中涌现。这表明基于偏好的学习能够恢复原则性实验策略，通过习得的领域自适应对理论形成补充。

0

相关内容

偏好优化

【CMU博士论文】交互式学习的进展：替代性反馈机制与自适应因果推理

【CMU博士论文】交互式学习的进展：替代性反馈机制与自适应因果推理

专知会员服务

17+阅读 · 2025年8月18日

基于因果推断的推荐系统去偏研究

基于因果推断的推荐系统去偏研究

专知会员服务

21+阅读 · 2024年11月10日

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视图和多环境

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视图和多环境

专知会员服务

34+阅读 · 2024年6月25日

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视角、多环境，192页pdf

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视角、多环境，192页pdf

专知会员服务

42+阅读 · 2024年3月24日

【ETHZ博士论文】因果机器学习在数据驱动决策中的方法与应用，293页pdf

【ETHZ博士论文】因果机器学习在数据驱动决策中的方法与应用，293页pdf

专知会员服务

44+阅读 · 2024年1月10日

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

专知会员服务

102+阅读 · 2023年2月13日

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

专知会员服务

84+阅读 · 2023年2月7日

【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

专知会员服务

54+阅读 · 2023年2月3日

西安交大最新《深度学习因果发现》综述论文，26页pdf涵盖211篇文献阐述三种深度因果范式

西安交大最新《深度学习因果发现》综述论文，26页pdf涵盖211篇文献阐述三种深度因果范式

专知会员服务

117+阅读 · 2022年9月15日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

专知

12+阅读 · 2022年11月25日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

机器之心

34+阅读 · 2019年1月4日

【学界】融合对抗学习的因果关系抽取

【学界】融合对抗学习的因果关系抽取

GAN生成式对抗网络

16+阅读 · 2018年7月14日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

冲动性个体的决策加工模式与神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

Orthogonal Uplift Learning with Permutation-Invariant Representations for Combinatorial Treatments

Arxiv

0+阅读 · 2月23日

Sparse Additive Model Pruning for Order-Based Causal Structure Learning

Arxiv

0+阅读 · 2月17日

On the Semantics of Primary Cause in Hybrid Dynamic Domains

Arxiv

0+阅读 · 2月16日

Estimating Interventional Distributions with Uncertain Causal Graphs through Meta-Learning

Arxiv

0+阅读 · 2月10日

Identification and Debiased Learning of Causal Effects with General Instrumental Variables

Arxiv

0+阅读 · 2月7日

Decision-Focused Sequential Experimental Design: A Directional Uncertainty-Guided Approach

Arxiv

0+阅读 · 2月5日

Evaluating Prediction-based Interventions with Human Decision Makers In Mind

Arxiv

0+阅读 · 2月4日

Preference-based Conditional Treatment Effects and Policy Learning

Preference-based Conditional Treatment Effects and Policy Learning

Arxiv

0+阅读 · 2月3日

PRISM: Festina Lente Proactivity -- Risk-Sensitive, Uncertainty-Aware Deliberation for Proactive Agents

Arxiv

0+阅读 · 2月2日

Causal Preference Elicitation

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

专知会员服务

0+阅读 · 28分钟前

前沿军事人工智能系统的理解与控制（报告1.8万字）

前沿军事人工智能系统的理解与控制（报告1.8万字）

专知会员服务

0+阅读 · 42分钟前

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

专知会员服务

0+阅读 · 45分钟前

《人工智能赋能电磁战》（报告）

《人工智能赋能电磁战》（报告）

专知会员服务

0+阅读 · 49分钟前

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

专知会员服务

0+阅读 · 今天14:34

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

专知会员服务

0+阅读 · 今天14:22

【CMU博士论文】迈向可扩展的开放世界三维感知

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

0+阅读 · 今天14:06

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

0+阅读 · 今天14:03

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

2+阅读 · 今天9:52

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

5+阅读 · 今天9:28

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

8+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

3+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

2+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

18+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

3+阅读 · 今天1:32

相关VIP内容

【CMU博士论文】交互式学习的进展：替代性反馈机制与自适应因果推理

【CMU博士论文】交互式学习的进展：替代性反馈机制与自适应因果推理

专知会员服务

17+阅读 · 2025年8月18日

基于因果推断的推荐系统去偏研究

基于因果推断的推荐系统去偏研究

专知会员服务

21+阅读 · 2024年11月10日

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视图和多环境

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视图和多环境

专知会员服务

34+阅读 · 2024年6月25日

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视角、多环境，192页pdf

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视角、多环境，192页pdf

专知会员服务

42+阅读 · 2024年3月24日

【ETHZ博士论文】因果机器学习在数据驱动决策中的方法与应用，293页pdf

【ETHZ博士论文】因果机器学习在数据驱动决策中的方法与应用，293页pdf

专知会员服务

44+阅读 · 2024年1月10日

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

专知会员服务

102+阅读 · 2023年2月13日

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

专知会员服务

84+阅读 · 2023年2月7日

【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

专知会员服务

54+阅读 · 2023年2月3日

西安交大最新《深度学习因果发现》综述论文，26页pdf涵盖211篇文献阐述三种深度因果范式

西安交大最新《深度学习因果发现》综述论文，26页pdf涵盖211篇文献阐述三种深度因果范式

专知会员服务

117+阅读 · 2022年9月15日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿军事人工智能系统的理解与控制（报告1.8万字）

《人工智能赋能电磁战》（报告）

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

专知

12+阅读 · 2022年11月25日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

机器之心

34+阅读 · 2019年1月4日

【学界】融合对抗学习的因果关系抽取

【学界】融合对抗学习的因果关系抽取

GAN生成式对抗网络

16+阅读 · 2018年7月14日

相关论文

Orthogonal Uplift Learning with Permutation-Invariant Representations for Combinatorial Treatments

Arxiv

0+阅读 · 2月23日

Sparse Additive Model Pruning for Order-Based Causal Structure Learning

Arxiv

0+阅读 · 2月17日

On the Semantics of Primary Cause in Hybrid Dynamic Domains

Arxiv

0+阅读 · 2月16日

Estimating Interventional Distributions with Uncertain Causal Graphs through Meta-Learning

Arxiv

0+阅读 · 2月10日

Identification and Debiased Learning of Causal Effects with General Instrumental Variables

Arxiv

0+阅读 · 2月7日

Decision-Focused Sequential Experimental Design: A Directional Uncertainty-Guided Approach

Arxiv

0+阅读 · 2月5日

Evaluating Prediction-based Interventions with Human Decision Makers In Mind

Arxiv

0+阅读 · 2月4日

Preference-based Conditional Treatment Effects and Policy Learning

Preference-based Conditional Treatment Effects and Policy Learning

Arxiv

0+阅读 · 2月3日

PRISM: Festina Lente Proactivity -- Risk-Sensitive, Uncertainty-Aware Deliberation for Proactive Agents

Arxiv

0+阅读 · 2月2日

Causal Preference Elicitation

Arxiv

0+阅读 · 2月1日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

冲动性个体的决策加工模式与神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员