Test-time scaling (TTS) has demonstrated remarkable success in enhancing large language models, yet its application to next-token prediction (NTP) autoregressive (AR) image generation remains largely uncharted. Existing TTS approaches for visual AR (VAR), which rely on frequent partial decoding and external reward models, are ill-suited for NTP-based image generation due to the inherent incompleteness of intermediate decoding results. To bridge this gap, we introduce ScalingAR, the first TTS framework specifically designed for NTP-based AR image generation that eliminates the need for early decoding or auxiliary rewards. ScalingAR leverages token entropy as a novel signal in visual token generation and operates at two complementary scaling levels: (i) Profile Level, which streams a calibrated confidence state by fusing intrinsic and conditional signals; and (ii) Policy Level, which utilizes this state to adaptively terminate low-confidence trajectories and dynamically schedule guidance for phase-appropriate conditioning strength. Experiments on both general and compositional benchmarks show that ScalingAR (1) improves base models by 12.5% on GenEval and 15.2% on TIIF-Bench, (2) efficiently reduces visual token consumption by 62.0% while outperforming baselines, and (3) successfully enhances robustness, mitigating performance drops by 26.0% in challenging scenarios.


翻译:测试时缩放(TTS)在增强大语言模型方面已展现出显著成功,但其在基于下一令牌预测(NTP)的自回归(AR)图像生成中的应用仍基本未被探索。现有的视觉自回归(VAR)TTS方法依赖于频繁的部分解码和外部奖励模型,由于中间解码结果固有的不完整性,这些方法并不适用于基于NTP的图像生成。为弥合这一差距,我们提出了ScalingAR,这是首个专门为基于NTP的AR图像生成设计的TTS框架,无需早期解码或辅助奖励。ScalingAR利用令牌熵作为视觉令牌生成中的一种新信号,并在两个互补的缩放级别上运行:(i)配置文件级别,通过融合内在信号和条件信号来流式传输校准后的置信状态;以及(ii)策略级别,利用该状态自适应地终止低置信度轨迹,并动态调度指导以实现阶段适宜的条件强度。在通用和组合基准测试上的实验表明,ScalingAR(1)在GenEval上将基础模型性能提升了12.5%,在TIIF-Bench上提升了15.2%;(2)在超越基线模型的同时,高效地将视觉令牌消耗降低了62.0%;以及(3)成功增强了鲁棒性,在具有挑战性的场景中将性能下降缓解了26.0%。

0
下载
关闭预览

相关内容

视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
专知会员服务
65+阅读 · 2021年4月11日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
6+阅读 · 4月25日
多智能体协作机制
专知会员服务
5+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
8+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
7+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
10+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
8+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员