While inference-time scaling has significantly enhanced generative quality in large language and diffusion models, its application to vector-quantized (VQ) visual autoregressive modeling (VAR) remains unexplored. We introduce VAR-Scaling, the first general framework for inference-time scaling in VAR, addressing the critical challenge of discrete latent spaces that prohibit continuous path search. We find that VAR scales exhibit two distinct pattern types: general patterns and specific patterns, where later-stage specific patterns conditionally optimize early-stage general patterns. To overcome the discrete latent space barrier in VQ models, we map sampling spaces to quasi-continuous feature spaces via kernel density estimation (KDE), where high-density samples approximate stable, high-quality solutions. This transformation enables effective navigation of sampling distributions. We propose a density-adaptive hybrid sampling strategy: Top-k sampling focuses on high-density regions to preserve quality near distribution modes, while Random-k sampling explores low-density areas to maintain diversity and prevent premature convergence. Consequently, VAR-Scaling optimizes sample fidelity at critical scales to enhance output quality. Experiments in class-conditional and text-to-image evaluations demonstrate significant improvements in inference process. The code is available at https://github.com/WD7ang/VAR-Scaling.


翻译:尽管推理时缩放已显著提升大型语言模型和扩散模型的生成质量,但其在矢量量化(VQ)视觉自回归建模(VAR)中的应用仍未被探索。本文提出VAR-Scaling——首个适用于VAR的通用推理时缩放框架,解决了离散潜在空间阻碍连续路径搜索的关键挑战。我们发现VAR缩放呈现两种不同的模式类型:通用模式与特定模式,其中后期特定模式有条件地优化早期通用模式。为克服VQ模型中离散潜在空间的障碍,我们通过核密度估计(KDE)将采样空间映射至准连续特征空间,其中高密度样本可近似稳定、高质量的解决方案。该转换实现了对采样分布的有效探索。我们提出一种密度自适应的混合采样策略:Top-k采样聚焦于高密度区域以保持分布模态附近的质量,而Random-k采样探索低密度区域以维持多样性并防止早熟收敛。因此,VAR-Scaling在关键尺度上优化样本保真度以提升输出质量。在类别条件生成和文生图评估中的实验表明,该框架在推理过程中实现了显著改进。代码已发布于https://github.com/WD7ang/VAR-Scaling。

0
下载
关闭预览

相关内容

基于扩散模型和流模型的推理时引导生成技术
专知会员服务
16+阅读 · 2025年4月30日
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
36+阅读 · 2025年1月10日
【NeurIPS2024】在复杂视觉推理场景中学习迭代和并行推理
专知会员服务
17+阅读 · 2024年11月30日
视觉自回归模型综述
专知会员服务
45+阅读 · 2024年11月15日
大模型的模型压缩与有效推理综述
专知会员服务
43+阅读 · 2024年7月8日
生成技术在时空数据挖掘中的应用
专知会员服务
39+阅读 · 2024年6月5日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
相关VIP内容
基于扩散模型和流模型的推理时引导生成技术
专知会员服务
16+阅读 · 2025年4月30日
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
36+阅读 · 2025年1月10日
【NeurIPS2024】在复杂视觉推理场景中学习迭代和并行推理
专知会员服务
17+阅读 · 2024年11月30日
视觉自回归模型综述
专知会员服务
45+阅读 · 2024年11月15日
大模型的模型压缩与有效推理综述
专知会员服务
43+阅读 · 2024年7月8日
生成技术在时空数据挖掘中的应用
专知会员服务
39+阅读 · 2024年6月5日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员