Instruction-based object addition is often hindered by the ambiguity of text-only prompts or the tedious nature of mask-based inputs. To address this usability gap, we introduce AbracADDbra, a user-friendly framework that leverages intuitive touch priors to spatially ground succinct instructions for precise placement. Our efficient, decoupled architecture uses a vision-language transformer for touch-guided placement, followed by a diffusion model that jointly generates the object and an instance mask for high-fidelity blending. To facilitate standardized evaluation, we contribute the Touch2Add benchmark for this interactive task. Our extensive evaluations, where our placement model significantly outperforms both random placement and general-purpose VLM baselines, confirm the framework's ability to produce high-fidelity edits. Furthermore, our analysis reveals a strong correlation between initial placement accuracy and final edit quality, validating our decoupled approach. This work thus paves the way for more accessible and efficient creative tools.


翻译:基于指令的物体添加常因纯文本提示的模糊性或基于掩码输入的繁琐性而受阻。为弥补这一可用性差距,我们提出了AbracADDbra——一个用户友好的框架,该框架利用直观的触控先验信息对简洁指令进行空间定位,从而实现精确放置。我们高效的解耦架构采用视觉-语言Transformer进行触控引导的放置,随后通过扩散模型联合生成物体及实例掩码,以实现高保真度的融合。为促进标准化评估,我们为此交互式任务贡献了Touch2Add基准测试集。大量实验评估表明,我们的放置模型显著优于随机放置和通用VLM基线,证实了该框架生成高保真度编辑结果的能力。进一步分析显示,初始放置精度与最终编辑质量之间存在强相关性,这验证了我们解耦方法的有效性。本工作为开发更易用、更高效的创意工具奠定了基础。

0
下载
关闭预览

相关内容

【ACL2024】DoRA:通过动态秩分布增强参数高效微调
专知会员服务
21+阅读 · 2024年5月28日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
读扩散?写扩散?推拉架构一文搞定!
架构师之路
17+阅读 · 2019年2月1日
Maplab:研究视觉惯性建图和定位的开源框架
泡泡机器人SLAM
16+阅读 · 2018年4月4日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【ACL2024】DoRA:通过动态秩分布增强参数高效微调
专知会员服务
21+阅读 · 2024年5月28日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员