Instruction-based image editing has made notable progress with recent advances in generative models. However, the quality of the edited result is still influenced by the randomly sampled initial noise, particularly in complex editing scenarios. An unsuitable initial noise may lead to unsatisfactory editing results. Recent inference-time scaling methods address this issue by sampling multiple initial noises and selecting better candidates. Nevertheless, most of them follow a decode-then-verify scheme which introduces an efficiency-accuracy trade-off. When decoding is performed after limited inference steps, the decoded images often remain too noisy for reliable assessment, whereas sufficiently denoised images require much higher computational cost. To address this issue, we propose VeriLatent, a plug-and-play adaptive inference-time scaling framework with early-step latent verification for image editing. Specifically, we propose a novel verifier that scores each initial noise through a latent-space editing activation map at an early stage. It identifies promising candidates by assessing whether they can induce an effective edit in the correct region. This enables efficient early pruning without decoding latents into images. Building on this, we further develop an adaptive search strategy for inference-time scaling. It allocates inference budgets according to editing difficulty, thereby reducing the number of function evaluations (NFE). Extensive experiments on multiple benchmarks and different base models demonstrate that VeriLatent consistently improves both editing performance and inference-time scaling efficiency.


翻译:指令式图像编辑随着生成模型的最新进展取得了显著进步。然而,编辑结果的质量仍受随机采样初始噪声的影响,尤其是在复杂编辑场景中。不合适的初始噪声可能导致编辑结果不理想。近期推理时缩放方法通过采样多个初始噪声并选择更优候选者来解决这一问题。然而,大多数方法遵循"先解码后验证"方案,这引入了效率与准确性的权衡。当经过有限推理步骤解码时,解码后图像往往噪声过大而难以可靠评估;而充分去噪的图像则需要更高计算成本。为解决此问题,我们提出VeriLatent——一种即插即用的自适应推理时缩放框架,通过早期步骤潜在验证实现图像编辑。具体而言,我们提出一种新型验证器,在早期阶段通过潜在空间编辑激活图对每个初始噪声进行评分。它通过评估候选者能否在正确区域引发有效编辑来识别有潜力的候选者。这使得无需将潜在表示解码为图像即可实现高效早期剪枝。在此基础上,我们进一步开发了推理时缩放的自适应搜索策略。该策略根据编辑难度分配推理预算,从而减少函数评估次数(NFE)。在多个基准和不同基础模型上的大量实验表明,VeriLatent持续提升了编辑性能和推理时缩放效率。

0
下载
关闭预览

相关内容

神经缩放定律的起源:从随机图到自然语言
专知会员服务
14+阅读 · 1月17日
【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 2025年4月5日
【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验
专知会员服务
15+阅读 · 2024年10月26日
《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
专知会员服务
43+阅读 · 2021年8月30日
专知会员服务
39+阅读 · 2021年3月29日
learn to see in the dark-低照度图像增强算法
计算机视觉life
16+阅读 · 2019年1月14日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
实战 | 用Python做图像处理(三)
七月在线实验室
15+阅读 · 2018年5月29日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
0+阅读 · 6月15日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
神经缩放定律的起源:从随机图到自然语言
专知会员服务
14+阅读 · 1月17日
【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 2025年4月5日
【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验
专知会员服务
15+阅读 · 2024年10月26日
《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
专知会员服务
43+阅读 · 2021年8月30日
专知会员服务
39+阅读 · 2021年3月29日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员