Scientific machine learning is limited less by model size than by the data it is trained on. Observational data records what happened but not why; template synthetic data has a known generating process but only for the simulator's template, not the case a user faces. We argue a third option is now operationally feasible: instrumented data, in which every datum carries the mechanistic model that produced it, an explicit uncertainty over that model, and an executable family of counterfactuals. Verification-and-validation (V&V) instrumented image-to-simulation pipelines are one realisation: a sensor observation becomes a fully specified, solver-backed simulation with explicit, editable parameters and a propagated aleatoric/epistemic uncertainty. The substrate is case-specific, mechanistically supervised, and supports causal interventions through Pearl's do-operator. Near-term consequences for validation, auditing, and surrogate training span computational biology, climate, materials, fluid mechanics, and medical imaging; a longer-term, falsifiable implication concerns foundation models for scientific reasoning.


翻译:科学机器学习的瓶颈更在于训练数据而非模型规模。观测性数据记录了事件发生的过程却未揭示其成因;模板化合成数据虽具备已知的生成机制,但这种机制仅适用于模拟器的模板框架,而非用户实际面对的特定场景。我们论证第三种方案现已具备操作可行性:仪器化数据,其中每个数据点承载着生成该数据的机理模型、对该模型显式的不确定性度量,以及可执行的反事实族。验证与确认(V&V)仪器化图像-模拟管线正是该方案的一种实现:传感器观测数据转化为具有完整参数化描述、求解器支撑且可显式编辑的仿真模型,并附带传播的随机性/认知性不确定性。这种数据基底具有案例特异性、受机理监督,并支持通过Pearl的do-算子实施因果干预。其在验证、审计和代理模型训练方面的近期应用涵盖计算生物学、气候科学、材料科学、流体力学和医学成像领域;而一项可证伪的长期推论则涉及科学推理的基础模型。

0
下载
关闭预览

相关内容

【斯坦福大学博士论文】个性化机器学习的理论进展
专知会员服务
25+阅读 · 2025年3月25日
【CUHK博士论文】现代机器学习中的因果性学习
专知会员服务
37+阅读 · 2025年1月24日
「因果机器学习」前沿进展最新综述
专知会员服务
86+阅读 · 2023年1月17日
不可错过!CMU《结构化数据机器学习》课程,附Slides
专知会员服务
56+阅读 · 2022年11月2日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
29+阅读 · 2023年2月10日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员