We present Paris, the first publicly released diffusion model pre-trained entirely through decentralized computation. Paris demonstrates that high-quality text-to-image generation can be achieved without centrally coordinated infrastructure. Paris is open for research and commercial use. Paris required implementing our Distributed Diffusion Training framework from scratch. The model consists of 8 expert diffusion models (129M-605M parameters each) trained in complete isolation with no gradient, parameter, or intermediate activation synchronization. Rather than requiring synchronized gradient updates across thousands of GPUs, we partition data into semantically coherent clusters where each expert independently optimizes its subset while collectively approximating the full distribution. A lightweight transformer router dynamically selects appropriate experts at inference, achieving generation quality comparable to centrally coordinated baselines. Eliminating synchronization enables training on heterogeneous hardware without specialized interconnects. Empirical validation confirms that Paris's decentralized training maintains generation quality while removing the dedicated GPU cluster requirement for large-scale diffusion models. Paris achieves this using 14$\times$ less training data and 16$\times$ less compute than the prior decentralized baseline.


翻译:我们提出了Paris,这是首个完全通过去中心化计算预训练并公开发布的扩散模型。Paris证明了高质量的文本到图像生成无需依赖中心化协调的基础设施即可实现。Paris面向研究和商业用途开放。Paris的开发需要我们从零开始实现分布式扩散训练框架。该模型由8个专家扩散模型组成(每个模型参数量为1.29亿至6.05亿),这些模型在完全隔离的环境下训练,无需梯度、参数或中间激活值的同步。我们摒弃了在数千个GPU上进行同步梯度更新的传统方式,而是将数据划分为语义连贯的聚类,每个专家模型独立优化其数据子集,同时整体逼近完整数据分布。一个轻量级Transformer路由器在推理阶段动态选择合适的专家模型,实现了与中心化协调基线相当的生成质量。消除同步需求使得模型能够在异构硬件上训练,无需专用互联设备。实证验证表明,Paris的去中心化训练在保持生成质量的同时,消除了大规模扩散模型对专用GPU集群的依赖。与先前的去中心化基线相比,Paris仅使用1/14的训练数据和1/16的计算量就实现了这一目标。

0
下载
关闭预览

相关内容

扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程,在复杂的图像分布和高斯分布之间建立联系,使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
扩散模型量化综述
专知会员服务
18+阅读 · 2025年5月11日
【NeurIPS2022】黎曼扩散模型
专知会员服务
43+阅读 · 2022年9月15日
专知会员服务
26+阅读 · 2021年9月28日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
2026“人工智能+”行业发展蓝皮书(附下载)
专知会员服务
1+阅读 · 23分钟前
《强化学习数学基础》
专知会员服务
1+阅读 · 27分钟前
“Maven计划”的发展演变之“Maven智能系统”应用
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
5+阅读 · 今天6:48
《实现联合作战能力所需的技术》58页报告
专知会员服务
2+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
3+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
4+阅读 · 今天6:12
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员