A fundamental challenge in science and engineering is the simulation-to-experiment gap. While we often possess prior knowledge of physical laws, these physical laws can be too difficult to solve exactly for complex systems. Such systems are commonly modeled using simulators, which impose computational approximations. Meanwhile, experimental measurements more faithfully represent the real world, but experimental data typically consists of observations that only partially reflect the system's full underlying state. We propose a data-driven distribution alignment framework that bridges this simulation-to-experiment gap by pre-training a generative model on fully observed (but imperfect) simulation data, then aligning it with partial (but real) observations of experimental data. While our method is domain-agnostic, we ground our approach in the physical sciences by introducing Adversarial Distribution Alignment (ADA). This method aligns a generative model of atomic positions -- initially trained on a simulated Boltzmann distribution -- with the distribution of experimental observations. We prove that our method recovers the target observable distribution, even with multiple, potentially correlated observables. We also empirically validate our framework on synthetic, molecular, and experimental protein data, demonstrating that it can align generative models with diverse observables. Our code is available at https://kaityrusnelson.com/ada/.


翻译:科学与工程中的一个基本挑战是模拟与实验之间的差距。尽管我们通常掌握物理定律的先验知识,但这些定律对于复杂系统而言可能难以精确求解。此类系统通常通过模拟器建模,这引入了计算近似。与此同时,实验测量更忠实地反映现实世界,但实验数据通常仅包含部分反映系统完整潜在状态的观测值。我们提出一种数据驱动的分布对齐框架,通过在全观测(但不完美)的模拟数据上预训练生成模型,然后将其与部分(但真实)的实验观测数据对齐,从而弥合模拟与实验之间的差距。尽管我们的方法具有领域无关性,我们通过引入对抗分布对齐(ADA)将其扎根于物理科学领域。该方法将原子位置的生成模型——最初基于模拟玻尔兹曼分布训练——与实验观测的分布对齐。我们证明,即使存在多个可能相关的观测量,该方法也能恢复目标可观测分布。我们还在合成数据、分子数据和实验蛋白质数据上进行了实证验证,表明该方法能够将生成模型与多种观测量对齐。我们的代码可在 https://kaityrusnelson.com/ada/ 获取。

0
下载
关闭预览

相关内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
模拟真实世界:多模态生成模型的统一综述
专知会员服务
34+阅读 · 2025年3月7日
基于虚拟现实环境的深度学习模型构建
MOOC
24+阅读 · 2019年9月28日
一文读懂机器学习模型的选择与取舍
DBAplus社群
13+阅读 · 2019年8月25日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
基于虚拟现实环境的深度学习模型构建
MOOC
24+阅读 · 2019年9月28日
一文读懂机器学习模型的选择与取舍
DBAplus社群
13+阅读 · 2019年8月25日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员