Simple Denoising Diffusion Language Models - 专知论文

会员服务 ·

0

去噪 · 损失 · 损失函数 · 扩散语言模型 · 语言模型 ·

Simple Denoising Diffusion Language Models

翻译：简单去噪扩散语言模型

Huaisheng Zhu,Zhengyu Chen,Shijie Zhou,Zhihui Xie,Yige Yuan,Shiqi Chen,Zhimeng Guo,Siyuan Xu,Hangfan Zhang,Vasant Honavar,Teng Xiao

Recent Uniform State Diffusion Models (USDMs), initialized from a uniform prior, offer the promise of fast text generation due to their inherent self-correction ability compared to masked diffusion models. However, they still rely on complex loss formulations with additional computational overhead, which hinders scalability. In this work, we explore a simplified denoising-based loss for USDMs that optimizes only noise-replaced tokens, stabilizing training while matching the performance of prior methods with more complex objectives. In addition, we introduce an efficient regularization term to mitigate corruption toward uniform output distributions, which further improves performance. We demonstrate the effectiveness and efficiency of our simple and improved loss formulations by pretraining models on widely used text datasets for USDMs. More importantly, our conclusions scale to larger models, showing strong potential for large-scale training.

翻译：最近提出的均匀状态扩散模型（USDMs）从均匀先验初始化，相比掩码扩散模型因其固有的自校正能力而展现出快速文本生成的潜力。然而，它们仍依赖于复杂的损失函数形式，并伴随额外的计算开销，这阻碍了其可扩展性。在本工作中，我们为USDMs探索了一种简化的基于去噪的损失函数，该函数仅优化被噪声替换的标记，在稳定训练的同时，达到了与先前采用更复杂目标的方法相当的性能。此外，我们引入了一种高效的规范化项，以减轻向均匀输出分布的退化，从而进一步提升了性能。通过在USDMs广泛使用的文本数据集上进行模型预训练，我们证明了我们这种简单且改进的损失函数形式的有效性和效率。更重要的是，我们的结论可扩展至更大规模的模型，显示出大规模训练的强劲潜力。

0

相关内容

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

专知会员服务

12+阅读 · 2025年9月21日

扩散语言模型综述

扩散语言模型综述

专知会员服务

19+阅读 · 2025年8月15日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

生成式人工智能的扩散模型概述

生成式人工智能的扩散模型概述

专知会员服务

66+阅读 · 2024年12月8日

《扩散模型》最新教程，141页ppt

《扩散模型》最新教程，141页ppt

专知会员服务

79+阅读 · 2024年12月2日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

去噪扩散概率模型，46页ppt

去噪扩散概率模型，46页ppt

专知会员服务

63+阅读 · 2023年1月4日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

87+阅读 · 2022年9月13日

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

专知会员服务

121+阅读 · 2022年9月9日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

专知

19+阅读 · 2020年1月6日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

图像降噪算法介绍及实现汇总

图像降噪算法介绍及实现汇总

极市平台

26+阅读 · 2018年1月3日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于伴随方法、改进文化基因算法和kriging代理模型的涡扇发动机短舱减噪优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

One Token Is Enough: Improving Diffusion Language Models with a Sink Token

Arxiv

0+阅读 · 2月20日

Watermarking Diffusion Language Models

Arxiv

0+阅读 · 2月19日

Fast and Scalable Analytical Diffusion

Arxiv

0+阅读 · 2月18日

Scaling Beyond Masked Diffusion Language Models

Arxiv

0+阅读 · 2月16日

Denoising diffusion probabilistic models are optimally adaptive to unknown low dimensionality

Arxiv

0+阅读 · 2月15日

Blind denoising diffusion models and the blessings of dimensionality

Arxiv

0+阅读 · 2月10日

Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling

Arxiv

0+阅读 · 2月3日

Generative quantum machine learning via denoising diffusion probabilistic models

Arxiv

0+阅读 · 1月30日

Residual Context Diffusion Language Models

Arxiv

0+阅读 · 1月30日

Diffusion Models under Alternative Noise: Simplified Analysis and Sensitivity

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

扩散语言模型

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

1+阅读 · 49分钟前

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

4+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

3+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

5+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

5+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

4+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

5+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

12+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

4+阅读 · 4月24日

相关VIP内容

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

专知会员服务

12+阅读 · 2025年9月21日

扩散语言模型综述

扩散语言模型综述

专知会员服务

19+阅读 · 2025年8月15日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

生成式人工智能的扩散模型概述

生成式人工智能的扩散模型概述

专知会员服务

66+阅读 · 2024年12月8日

《扩散模型》最新教程，141页ppt

《扩散模型》最新教程，141页ppt

专知会员服务

79+阅读 · 2024年12月2日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

去噪扩散概率模型，46页ppt

去噪扩散概率模型，46页ppt

专知会员服务

63+阅读 · 2023年1月4日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

87+阅读 · 2022年9月13日

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

专知会员服务

121+阅读 · 2022年9月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

专知

19+阅读 · 2020年1月6日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

图像降噪算法介绍及实现汇总

图像降噪算法介绍及实现汇总

极市平台

26+阅读 · 2018年1月3日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

One Token Is Enough: Improving Diffusion Language Models with a Sink Token

Arxiv

0+阅读 · 2月20日

Watermarking Diffusion Language Models

Arxiv

0+阅读 · 2月19日

Fast and Scalable Analytical Diffusion

Arxiv

0+阅读 · 2月18日

Scaling Beyond Masked Diffusion Language Models

Arxiv

0+阅读 · 2月16日

Denoising diffusion probabilistic models are optimally adaptive to unknown low dimensionality

Arxiv

0+阅读 · 2月15日

Blind denoising diffusion models and the blessings of dimensionality

Arxiv

0+阅读 · 2月10日

Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling

Arxiv

0+阅读 · 2月3日

Generative quantum machine learning via denoising diffusion probabilistic models

Arxiv

0+阅读 · 1月30日

Residual Context Diffusion Language Models

Arxiv

0+阅读 · 1月30日

Diffusion Models under Alternative Noise: Simplified Analysis and Sensitivity

Arxiv

0+阅读 · 1月29日

相关基金

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于伴随方法、改进文化基因算法和kriging代理模型的涡扇发动机短舱减噪优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员