Diffusion and flow matching approaches to generative modeling have shown promise in domains where the state space is continuous, such as image generation or protein folding & design, and discrete, exemplified by diffusion large language models. They offer a natural fit when the number of elements in a state is fixed in advance (e.g. images), but require ad hoc solutions when, for example, the length of a response from a large language model, or the number of amino acids in a protein chain is not known a priori. Here we propose Branching Flows, a generative modeling framework that, like diffusion and flow matching approaches, transports a simple distribution to the data distribution. But in Branching Flows, the elements in the state evolve over a forest of binary trees, branching and dying stochastically with rates that are learned by the model. This allows the model to control, during generation, the number of elements in the sequence. We also show that Branching Flows can compose with any flow matching base process on discrete sets, continuous Euclidean spaces, smooth manifolds, and `multimodal' product spaces that mix these components. We demonstrate this in three domains: small molecule generation (multimodal), antibody sequence generation (discrete), and protein backbone generation (multimodal), and show that Branching Flows is a capable distribution learner with a stable learning objective, and that it enables new capabilities.


翻译:扩散模型与流匹配等生成式建模方法,在状态空间为连续(如图像生成或蛋白质折叠与设计)和离散(如扩散大语言模型)的领域中展现出优势。当状态中元素数量预先固定时(如图像),这些方法自然适用,但当大语言模型回答长度或蛋白质链中氨基酸数量无法预先确定时,则需要采用特设解决方案。本文提出分支流(Branching Flows)这一生成式建模框架,其与扩散模型和流匹配方法类似,将简单分布传输至数据分布。但在分支流中,状态元素在二叉树森林上演化,以模型学习的速率随机分支与消亡。这使模型在生成过程中能够控制序列元素的数量。我们还证明,分支流可与任意流匹配基过程在离散集、连续欧氏空间、光滑流形及混合上述组件的“多模态”乘积空间上组合。我们在三个领域验证了该方法:小分子生成(多模态)、抗体序列生成(离散)及蛋白质骨架生成(多模态),结果表明分支流是具有稳定学习目标的优秀分布学习器,并赋予了模型新的能力。

0
下载
关闭预览

相关内容

流匹配在生物学与生命科学中的应用综述
专知会员服务
16+阅读 · 2025年7月25日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月14日
Arxiv
0+阅读 · 6月12日
Arxiv
0+阅读 · 5月17日
Arxiv
0+阅读 · 5月11日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
流匹配在生物学与生命科学中的应用综述
专知会员服务
16+阅读 · 2025年7月25日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员