Diffusion and flow matching models have unlocked unprecedented capabilities for creative content creation, such as interactive image and streaming video generation. The growing demand for higher resolutions, frame rates, and context lengths, however, makes efficient generation increasingly challenging, as computational complexity grows quadratically with the number of generated tokens. Our work seeks to optimize the efficiency of the generation process in settings where the user's gaze location is known or can be estimated, for example, by using eye tracking. In these settings, we leverage the eccentricity-dependent acuity of human vision: while a user perceives very high-resolution visual information in a small region around their gaze location (the foveal region), the ability to resolve detail quickly degrades in the periphery of the visual field. Our approach starts with a mask modeling the foveated resolution to allocate tokens non-uniformly, assigning higher token density to foveal regions and lower density to peripheral regions. An image or video is generated in a mixed-resolution token setting, yielding results perceptually indistinguishable from full-resolution generation, while drastically reducing the token count and generation time. To this end, we develop a principled mechanism for constructing mixed-resolution tokens directly from high-resolution data, allowing a foveated diffusion model to be post-trained from an existing base model while maintaining content consistency across resolutions. We validate our approach through extensive analysis and a carefully designed user study, demonstrating the efficacy of foveation as a practical and scalable axis for efficient generation.


翻译:扩散模型与流匹配模型为创意内容生成(如交互式图像与流式视频生成)带来了前所未有的能力。然而,对更高分辨率、帧率和上下文长度的日益增长的需求,使得高效生成面临越来越大的挑战,因为计算复杂度随生成令牌数量的增加呈二次方增长。本研究旨在优化用户注视位置已知或可估计(例如通过眼动追踪)场景下的生成效率。在此类场景中,我们利用人类视觉的离心度依赖性敏锐度:虽然用户在注视点周围的小范围区域(中心凹区域)能感知到极高分辨率的视觉信息,但在视野外围,分辨细节的能力会迅速下降。我们的方法首先通过构建模拟中心凹分辨率的掩膜实现令牌的非均匀分配,为中心凹区域分配更高的令牌密度,为外围区域分配较低的密度。图像或视频在混合分辨率令牌设置下生成,其感知效果与全分辨率生成无显著差异,同时大幅减少令牌数量和生成时间。为此,我们开发了一种基于原则的机制,直接从高分辨率数据构建混合分辨率令牌,使得中心凹扩散模型能够在保持跨分辨率内容一致性的前提下,基于现有基础模型进行后训练。通过广泛分析与精心设计的用户研究,我们验证了该方法的有效性,证明了中心凹化作为实用且可扩展的高效生成维度的应用潜力。

0
下载
关闭预览

相关内容

高效视频扩散模型:进展与挑战
专知会员服务
9+阅读 · 4月20日
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
9+阅读 · 2025年10月23日
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
基于扩散模型和流模型的推理时引导生成技术
专知会员服务
17+阅读 · 2025年4月30日
视频扩散模型综述:基础、实现与应用
专知会员服务
14+阅读 · 2025年4月24日
高效扩散模型综述
专知会员服务
35+阅读 · 2025年2月1日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
高效视频扩散模型:进展与挑战
专知会员服务
9+阅读 · 4月20日
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
9+阅读 · 2025年10月23日
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
基于扩散模型和流模型的推理时引导生成技术
专知会员服务
17+阅读 · 2025年4月30日
视频扩散模型综述:基础、实现与应用
专知会员服务
14+阅读 · 2025年4月24日
高效扩散模型综述
专知会员服务
35+阅读 · 2025年2月1日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
相关资讯
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员