Instrumented data for causal scientific machine learning - 专知论文

会员服务 ·

0

科学机器学习 · 因果科学 · 不确定 · 不确定性 · 机器学习 ·

Instrumented data for causal scientific machine learning

翻译：仪器化数据用于因果科学机器学习

Daniel N. Wilke

from arxiv, 10 pages, 2 figures

Scientific machine learning is limited less by model size than by the data it is trained on. Observational data records what happened but not why; template synthetic data has a known generating process but only for the simulator's template, not the case a user faces. We argue a third option is now operationally feasible: instrumented data, in which every datum carries the mechanistic model that produced it, an explicit uncertainty over that model, and an executable family of counterfactuals. Verification-and-validation (V&V) instrumented image-to-simulation pipelines are one realisation: a sensor observation becomes a fully specified, solver-backed simulation with explicit, editable parameters and a propagated aleatoric/epistemic uncertainty. The substrate is case-specific, mechanistically supervised, and supports causal interventions through Pearl's do-operator. Near-term consequences for validation, auditing, and surrogate training span computational biology, climate, materials, fluid mechanics, and medical imaging; a longer-term, falsifiable implication concerns foundation models for scientific reasoning.

翻译：科学机器学习的瓶颈更在于训练数据而非模型规模。观测性数据记录了事件发生的过程却未揭示其成因；模板化合成数据虽具备已知的生成机制，但这种机制仅适用于模拟器的模板框架，而非用户实际面对的特定场景。我们论证第三种方案现已具备操作可行性：仪器化数据，其中每个数据点承载着生成该数据的机理模型、对该模型显式的不确定性度量，以及可执行的反事实族。验证与确认（V&V）仪器化图像-模拟管线正是该方案的一种实现：传感器观测数据转化为具有完整参数化描述、求解器支撑且可显式编辑的仿真模型，并附带传播的随机性/认知性不确定性。这种数据基底具有案例特异性、受机理监督，并支持通过Pearl的do-算子实施因果干预。其在验证、审计和代理模型训练方面的近期应用涵盖计算生物学、气候科学、材料科学、流体力学和医学成像领域；而一项可证伪的长期推论则涉及科学推理的基础模型。

0

相关内容

科学机器学习

科学机器学习

【博士论文】因果机器学习中的数据质量研究：算法公平性的应用

【博士论文】因果机器学习中的数据质量研究：算法公平性的应用

专知会员服务

18+阅读 · 2025年11月10日

【斯坦福大学博士论文】个性化机器学习的理论进展

【斯坦福大学博士论文】个性化机器学习的理论进展

专知会员服务

25+阅读 · 2025年3月25日

【CUHK博士论文】现代机器学习中的因果性学习

【CUHK博士论文】现代机器学习中的因果性学习

专知会员服务

37+阅读 · 2025年1月24日

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

专知会员服务

26+阅读 · 2024年5月25日

「因果机器学习」前沿进展最新综述

「因果机器学习」前沿进展最新综述

专知会员服务

86+阅读 · 2023年1月17日

不可错过！CMU《结构化数据机器学习》课程，附Slides

不可错过！CMU《结构化数据机器学习》课程，附Slides

专知会员服务

56+阅读 · 2022年11月2日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知会员服务

126+阅读 · 2022年9月11日

什么是因果机器学习？UCL&牛津大学最新《因果机器学习》书册，165页pdf阐述因果机器学习体系

什么是因果机器学习？UCL&牛津大学最新《因果机器学习》书册，165页pdf阐述因果机器学习体系

专知会员服务

291+阅读 · 2022年7月1日

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

专知会员服务

108+阅读 · 2022年4月28日

「因果性机器学习」书册，88页pdf概述机器学习中的因果推理

「因果性机器学习」书册，88页pdf概述机器学习中的因果推理

专知会员服务

312+阅读 · 2021年3月21日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

专知

20+阅读 · 2022年5月28日

「因果性机器学习」书册，88页pdf概述机器学习中的因果推理

「因果性机器学习」书册，88页pdf概述机器学习中的因果推理

专知

20+阅读 · 2021年3月21日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

17+阅读 · 2019年1月24日

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

专知

103+阅读 · 2018年11月11日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Learning the Geometry of Data: A Mathematical Review of Shape Space Analysis

Arxiv

0+阅读 · 6月15日

Data-aware Static Analysis: Improving Detection of Semantic Faults in Machine Learning Code Using Data Characteristics

Arxiv

0+阅读 · 6月8日

DiffUNet^2: Bidirectional Prediction, Probabilistic Generation and Collaborative Visual Discovery for Scientific Data

Arxiv

0+阅读 · 6月2日

A Systematic Study of Behavioral Cloning for Scientific Data Annotation

Arxiv

0+阅读 · 5月26日

How to Utilize Failure Demo Data?: Effective Data Selection for Imitation Learning Using Distribution Differences in Attention Mechanism

Arxiv

0+阅读 · 5月20日

Stochastic Penalty-Barrier Methods for Constrained Machine Learning

Arxiv

0+阅读 · 5月19日

DataMaster: Towards Autonomous Data Engineering for Machine Learning

Arxiv

0+阅读 · 5月11日

GenAI Powered Dynamic Causal Inference with Unstructured Data

Arxiv

0+阅读 · 5月8日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

A Survey on Causal Reinforcement Learning

Arxiv

29+阅读 · 2023年2月10日

VIP会员

文章信息

相关主题

科学机器学习

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【博士论文】因果机器学习中的数据质量研究：算法公平性的应用

【博士论文】因果机器学习中的数据质量研究：算法公平性的应用

专知会员服务

18+阅读 · 2025年11月10日

【斯坦福大学博士论文】个性化机器学习的理论进展

【斯坦福大学博士论文】个性化机器学习的理论进展

专知会员服务

25+阅读 · 2025年3月25日

【CUHK博士论文】现代机器学习中的因果性学习

【CUHK博士论文】现代机器学习中的因果性学习

专知会员服务

37+阅读 · 2025年1月24日

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

专知会员服务

26+阅读 · 2024年5月25日

「因果机器学习」前沿进展最新综述

「因果机器学习」前沿进展最新综述

专知会员服务

86+阅读 · 2023年1月17日

不可错过！CMU《结构化数据机器学习》课程，附Slides

不可错过！CMU《结构化数据机器学习》课程，附Slides

专知会员服务

56+阅读 · 2022年11月2日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知会员服务

126+阅读 · 2022年9月11日

什么是因果机器学习？UCL&牛津大学最新《因果机器学习》书册，165页pdf阐述因果机器学习体系

什么是因果机器学习？UCL&牛津大学最新《因果机器学习》书册，165页pdf阐述因果机器学习体系

专知会员服务

291+阅读 · 2022年7月1日

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

专知会员服务

108+阅读 · 2022年4月28日

「因果性机器学习」书册，88页pdf概述机器学习中的因果推理

「因果性机器学习」书册，88页pdf概述机器学习中的因果推理

专知会员服务

312+阅读 · 2021年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

专知

20+阅读 · 2022年5月28日

「因果性机器学习」书册，88页pdf概述机器学习中的因果推理

「因果性机器学习」书册，88页pdf概述机器学习中的因果推理

专知

20+阅读 · 2021年3月21日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

17+阅读 · 2019年1月24日

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

北京大学何洋波博士《因果推断和因果图模型》机器学习报告

专知

103+阅读 · 2018年11月11日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

相关论文

Learning the Geometry of Data: A Mathematical Review of Shape Space Analysis

Arxiv

0+阅读 · 6月15日

Data-aware Static Analysis: Improving Detection of Semantic Faults in Machine Learning Code Using Data Characteristics

Arxiv

0+阅读 · 6月8日

DiffUNet^2: Bidirectional Prediction, Probabilistic Generation and Collaborative Visual Discovery for Scientific Data

Arxiv

0+阅读 · 6月2日

A Systematic Study of Behavioral Cloning for Scientific Data Annotation

Arxiv

0+阅读 · 5月26日

How to Utilize Failure Demo Data?: Effective Data Selection for Imitation Learning Using Distribution Differences in Attention Mechanism

Arxiv

0+阅读 · 5月20日

Stochastic Penalty-Barrier Methods for Constrained Machine Learning

Arxiv

0+阅读 · 5月19日

DataMaster: Towards Autonomous Data Engineering for Machine Learning

Arxiv

0+阅读 · 5月11日

GenAI Powered Dynamic Causal Inference with Unstructured Data

Arxiv

0+阅读 · 5月8日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

A Survey on Causal Reinforcement Learning

Arxiv

29+阅读 · 2023年2月10日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员