Distributional Priors Guided Diffusion for Generating 3D Molecules in Low Data Regimes - 专知论文

会员服务 ·

0

分子 · 结构 · 泛化 · 三维分子生成 · 分子生成 ·

Distributional Priors Guided Diffusion for Generating 3D Molecules in Low Data Regimes

翻译：分布先验引导的扩散模型用于低数据区域的三维分子生成

Haokai Hong,Wanyu Lin,Ming Yang,Kay Chen Tan

from arxiv, 24 pages. Accepted by AAAI 2026

Can we train a 3D molecule generator using data from dense regions to generate samples in sparse regions? This challenge can be framed as an out-of-distribution (OOD) generation problem. While prior research on OOD generation predominantly targets property shifts, structural shifts -- such as differences in molecular scaffolds or functional groups -- represent an equally critical source of distributional shifts. This work introduces the Geometric OOD Diffusion Model (GODD), a novel diffusion-based framework that enables training on data-abundant molecular distributions while generalizing to data-scarce distributions under distributional structural shifts. Central to our approach is a designated equivariant asymmetric autoencoder to capture distributional structural priors. The asymmetric design allows the model to generalize to unseen structural variations by capturing distributional priors representing distinct distributions. The encoded structural-grained priors guide generation toward sparse regions without requiring explicit training on such data. Evaluated across standard benchmarks encompassing OOD structural shifts (e.g., scaffolds, rings), GODD achieves an improvement of 12.6% in success rate, defined based on molecular validity, uniqueness, and novelty. Furthermore, the framework demonstrates promising performance and generalization on canonical fragment-based drug design tasks, highlighting its utility in learning-based molecular discovery.

翻译：我们能否利用密集区域的数据训练三维分子生成器，以生成稀疏区域的样本？这一挑战可被表述为分布外生成问题。尽管先前关于分布外生成的研究主要关注属性偏移，但结构偏移——例如分子骨架或官能团的差异——同样是分布偏移的重要来源。本文提出几何分布外扩散模型，这是一种新颖的基于扩散的框架，能够在数据丰富的分子分布上进行训练，同时泛化至分布结构偏移下数据稀缺的分布。我们方法的核心是一个指定的等变非对称自编码器，用于捕获分布结构先验。该非对称设计使模型能够通过捕获代表不同分布的分布先验来泛化至未见的结构变异。编码的结构粒度先验引导生成过程朝向稀疏区域，而无需对此类数据进行显式训练。在涵盖分布外结构偏移（如骨架、环系）的标准基准测试中，GODD在基于分子有效性、独特性和新颖性定义的成功率上实现了12.6%的提升。此外，该框架在基于片段的经典药物设计任务上展现出良好的性能和泛化能力，突显了其在基于学习的分子发现中的实用性。

0

相关内容

图基础模型中的分布外（Out-of-Distribution）泛化研究

图基础模型中的分布外（Out-of-Distribution）泛化研究

专知会员服务

12+阅读 · 1月31日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

深度图学习在分布偏移下的综述：从图的分布外泛化到自适应

深度图学习在分布偏移下的综述：从图的分布外泛化到自适应

专知会员服务

18+阅读 · 2024年10月28日

低层视觉中的扩散模型：综述

低层视觉中的扩散模型：综述

专知会员服务

22+阅读 · 2024年6月18日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

【AAAI2024】基于扩散语言模型的文本引导分子生成

【AAAI2024】基于扩散语言模型的文本引导分子生成

专知会员服务

29+阅读 · 2024年2月21日

【ICML2023】几何潜在扩散模型的三维分子生成

【ICML2023】几何潜在扩散模型的三维分子生成

专知会员服务

26+阅读 · 2023年5月5日

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

专知会员服务

45+阅读 · 2023年1月31日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【ICML2019】中科院自动化所-针对小样本问题的学习生成匹配网络方法

【ICML2019】中科院自动化所-针对小样本问题的学习生成匹配网络方法

专知

59+阅读 · 2019年5月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

里昂大学博士学位论文-图像分类中的迁移学习

里昂大学博士学位论文-图像分类中的迁移学习

专知

12+阅读 · 2019年4月10日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【迁移学习】迁移学习在图像分类中的简单应用策略

【迁移学习】迁移学习在图像分类中的简单应用策略

产业智能官

15+阅读 · 2018年1月5日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

植物分子设计中高维数据的低维稀疏逼近方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Arxiv

0+阅读 · 3月10日

Generalization Properties of Score-matching Diffusion Models for Intrinsically Low-dimensional Data

Arxiv

0+阅读 · 3月4日

Guided Transfer Learning for Discrete Diffusion Models

Arxiv

0+阅读 · 2月20日

Generative Distribution Embeddings: Lifting autoencoders to the space of distributions for multiscale representation learning

Arxiv

0+阅读 · 2月20日

PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

Arxiv

0+阅读 · 2月19日

Error Propagation and Model Collapse in Diffusion Models: A Theoretical Study

Arxiv

0+阅读 · 2月18日

Towards reconstructing experimental sparse-view X-ray CT data with diffusion models

Arxiv

0+阅读 · 2月13日

A Diffusion-Based Generative Prior Approach to Sparse-view Computed Tomography

Arxiv

0+阅读 · 2月11日

Solving Prior Distribution Mismatch in Diffusion Models via Optimal Transport

Arxiv

0+阅读 · 2月5日

Quantum latent distributions in deep generative models

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

三维分子生成

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

2+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

1+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

1+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

13+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

6+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

10+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

7+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

6+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

图基础模型中的分布外（Out-of-Distribution）泛化研究

图基础模型中的分布外（Out-of-Distribution）泛化研究

专知会员服务

12+阅读 · 1月31日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

深度图学习在分布偏移下的综述：从图的分布外泛化到自适应

深度图学习在分布偏移下的综述：从图的分布外泛化到自适应

专知会员服务

18+阅读 · 2024年10月28日

低层视觉中的扩散模型：综述

低层视觉中的扩散模型：综述

专知会员服务

22+阅读 · 2024年6月18日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

【AAAI2024】基于扩散语言模型的文本引导分子生成

【AAAI2024】基于扩散语言模型的文本引导分子生成

专知会员服务

29+阅读 · 2024年2月21日

【ICML2023】几何潜在扩散模型的三维分子生成

【ICML2023】几何潜在扩散模型的三维分子生成

专知会员服务

26+阅读 · 2023年5月5日

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

专知会员服务

45+阅读 · 2023年1月31日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【ICML2019】中科院自动化所-针对小样本问题的学习生成匹配网络方法

【ICML2019】中科院自动化所-针对小样本问题的学习生成匹配网络方法

专知

59+阅读 · 2019年5月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

里昂大学博士学位论文-图像分类中的迁移学习

里昂大学博士学位论文-图像分类中的迁移学习

专知

12+阅读 · 2019年4月10日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【迁移学习】迁移学习在图像分类中的简单应用策略

【迁移学习】迁移学习在图像分类中的简单应用策略

产业智能官

15+阅读 · 2018年1月5日

相关论文

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Arxiv

0+阅读 · 3月10日

Generalization Properties of Score-matching Diffusion Models for Intrinsically Low-dimensional Data

Arxiv

0+阅读 · 3月4日

Guided Transfer Learning for Discrete Diffusion Models

Arxiv

0+阅读 · 2月20日

Generative Distribution Embeddings: Lifting autoencoders to the space of distributions for multiscale representation learning

Arxiv

0+阅读 · 2月20日

PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

Arxiv

0+阅读 · 2月19日

Error Propagation and Model Collapse in Diffusion Models: A Theoretical Study

Arxiv

0+阅读 · 2月18日

Towards reconstructing experimental sparse-view X-ray CT data with diffusion models

Arxiv

0+阅读 · 2月13日

A Diffusion-Based Generative Prior Approach to Sparse-view Computed Tomography

Arxiv

0+阅读 · 2月11日

Solving Prior Distribution Mismatch in Diffusion Models via Optimal Transport

Arxiv

0+阅读 · 2月5日

Quantum latent distributions in deep generative models

Arxiv

0+阅读 · 1月30日

相关基金

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

植物分子设计中高维数据的低维稀疏逼近方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员