【CVPR2026】DiverseDiT: 迈向扩散 Transformer 中的多样化表示学习 - 专知VIP

会员服务 ·

5

CVPR 2026 · 表示学习 · 图扩散Transformer · 扩散Transformer模型 ·

【CVPR2026】DiverseDiT: 迈向扩散 Transformer 中的多样化表示学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

扩散 Transformer (DiTs) 近期凭借其卓越的可扩展性 (scalability)，在视觉合成领域引发了变革性突破。为了增强 DiTs 捕获深层内部表征的能力，诸如 REPA 等近期的研究引入了外部预训练编码器以进行表示对齐 (representation alignment)。然而，支配 DiTs 内部表示学习的底层机制仍未得到充分探索。为此，本文首先对 DiTs 的表示动力学 (representation dynamics) 进行了系统性研究。通过分析不同设置下内部表征的演变及其影响，我们发现跨块的表示多样性 (representation diversity) 是实现高效学习的核心要素。基于这一关键洞察，我们提出了 DiverseDiT —— 一个旨在显式提升表示多样性的创新框架。DiverseDiT 通过引入长残差连接 (long residual connections) 来丰富跨块的输入表示多样性，并利用表示多样性损失函数促使各模块学习差异化特征。在 ImageNet 256×256 及 512×512 规模上的大量实验表明，DiverseDiT 在不同规模的骨干网络上均实现了稳健的性能提升与收敛加速，即便在极具挑战性的单步生成 (one-step generation) 场景下亦表现出色。此外，我们证明了 DiverseDiT 与现有的表示学习技术具有良好的互补性，能够进一步提升模型性能。本研究为理解 DiTs 的表示学习动力学提供了重要见解，并为增强模型效能提供了一种切实可行的方案。项目代码已开源至：https://github.com/kobeshegu/DiverseDiT。

成为VIP会员查看完整内容

8

相关内容

CVPR 2026

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

专知会员服务

10+阅读 · 2025年9月23日

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

专知会员服务

13+阅读 · 2025年4月20日

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

CVPR2025最新《Transformer模型》论文速读

CVPR2025最新《Transformer模型》论文速读

专知会员服务

26+阅读 · 2025年3月17日

Sora的幕后功臣？详解大火的DiT：拥抱Transformer的扩散模型

Sora的幕后功臣？详解大火的DiT：拥抱Transformer的扩散模型

专知会员服务

47+阅读 · 2024年3月14日

【CVPR2023】视觉Transformer学习长尾数据，解决不平衡标注数据

【CVPR2023】视觉Transformer学习长尾数据，解决不平衡标注数据

专知会员服务

33+阅读 · 2023年6月16日

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

专知会员服务

35+阅读 · 2023年3月20日

Transformer如何做扩散模型？伯克利最新《transformer可扩展扩散模型》论文

Transformer如何做扩散模型？伯克利最新《transformer可扩展扩散模型》论文

专知会员服务

90+阅读 · 2022年12月22日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知会员服务

35+阅读 · 2022年1月26日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

【CVPR2019教程】视频理解中的图表示学习

【CVPR2019教程】视频理解中的图表示学习

专知

43+阅读 · 2019年6月20日

学界 | CVPR 最新医学影像 AI 论文：利用学习图像变换进行数据增强

学界 | CVPR 最新医学影像 AI 论文：利用学习图像变换进行数据增强

AI科技评论

10+阅读 · 2019年3月23日

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

AI掘金志

36+阅读 · 2019年3月4日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多特征驱动的彩色多聚焦图像融合理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量学习的多源异质多视角视频显著性分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Arxiv

0+阅读 · 3月12日

Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers

Arxiv

0+阅读 · 2月20日

Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

Arxiv

0+阅读 · 2月20日

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

Arxiv

0+阅读 · 2月19日

Elastic Diffusion Transformer

Arxiv

0+阅读 · 2月15日

SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Arxiv

0+阅读 · 2月11日

Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders

Arxiv

0+阅读 · 2月10日

AdaTSQ: Pushing the Pareto Frontier of Diffusion Transformers via Temporal-Sensitivity Quantization

Arxiv

0+阅读 · 2月10日

Q-DiT4SR: Exploration of Detail-Preserving Diffusion Transformer Quantization for Real-World Image Super-Resolution

Arxiv

0+阅读 · 2月10日

Image-to-Image Translation with Diffusion Transformers and CLIP-Based Image Conditioning

Arxiv

0+阅读 · 2月5日

VIP会员

相关主题

图扩散Transformer

扩散Transformer模型

最新内容

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

2+阅读 · 4月30日

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

2+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

6+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

5+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

5+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

6+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

9+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

7+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

17+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

10+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

专知会员服务

10+阅读 · 4月28日

相关VIP内容

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

专知会员服务

10+阅读 · 2025年9月23日

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

专知会员服务

13+阅读 · 2025年4月20日

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

CVPR2025最新《Transformer模型》论文速读

CVPR2025最新《Transformer模型》论文速读

专知会员服务

26+阅读 · 2025年3月17日

Sora的幕后功臣？详解大火的DiT：拥抱Transformer的扩散模型

Sora的幕后功臣？详解大火的DiT：拥抱Transformer的扩散模型

专知会员服务

47+阅读 · 2024年3月14日

【CVPR2023】视觉Transformer学习长尾数据，解决不平衡标注数据

【CVPR2023】视觉Transformer学习长尾数据，解决不平衡标注数据

专知会员服务

33+阅读 · 2023年6月16日

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

专知会员服务

35+阅读 · 2023年3月20日

Transformer如何做扩散模型？伯克利最新《transformer可扩展扩散模型》论文

Transformer如何做扩散模型？伯克利最新《transformer可扩展扩散模型》论文

专知会员服务

90+阅读 · 2022年12月22日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知会员服务

35+阅读 · 2022年1月26日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

热门VIP内容

开通专知VIP会员享更多权益服务

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

相关资讯

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

【CVPR2019教程】视频理解中的图表示学习

【CVPR2019教程】视频理解中的图表示学习

专知

43+阅读 · 2019年6月20日

学界 | CVPR 最新医学影像 AI 论文：利用学习图像变换进行数据增强

学界 | CVPR 最新医学影像 AI 论文：利用学习图像变换进行数据增强

AI科技评论

10+阅读 · 2019年3月23日

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

AI掘金志

36+阅读 · 2019年3月4日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

相关基金

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多特征驱动的彩色多聚焦图像融合理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量学习的多源异质多视角视频显著性分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Arxiv

0+阅读 · 3月12日

Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers

Arxiv

0+阅读 · 2月20日

Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

Arxiv

0+阅读 · 2月20日

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

Arxiv

0+阅读 · 2月19日

Elastic Diffusion Transformer

Arxiv

0+阅读 · 2月15日

SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Arxiv

0+阅读 · 2月11日

Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders

Arxiv

0+阅读 · 2月10日

AdaTSQ: Pushing the Pareto Frontier of Diffusion Transformers via Temporal-Sensitivity Quantization

Arxiv

0+阅读 · 2月10日

Q-DiT4SR: Exploration of Detail-Preserving Diffusion Transformer Quantization for Real-World Image Super-Resolution

Arxiv

0+阅读 · 2月10日

Image-to-Image Translation with Diffusion Transformers and CLIP-Based Image Conditioning

Arxiv

0+阅读 · 2月5日

微信扫码咨询专知VIP会员