Visual analogy learning enables image manipulation through demonstration rather than textual description, allowing users to specify complex transformations difficult to articulate in words. Given a triplet $\{\mathbf{a}$, $\mathbf{a}'$, $\mathbf{b}\}$, the goal is to generate $\mathbf{b}'$ such that $\mathbf{a} : \mathbf{a}' :: \mathbf{b} : \mathbf{b}'$. Recent methods adapt text-to-image models to this task using a single Low-Rank Adaptation (LoRA) module, but they face a fundamental limitation: attempting to capture the diverse space of visual transformations within a fixed adaptation module constrains generalization capabilities. Inspired by recent work showing that LoRAs in constrained domains span meaningful, interpolatable semantic spaces, we propose LoRWeB, a novel approach that specializes the model for each analogy task at inference time through dynamic composition of learned transformation primitives, informally, choosing a point in a "space of LoRAs". We introduce two key components: (1) a learnable basis of LoRA modules, to span the space of different visual transformations, and (2) a lightweight encoder that dynamically selects and weighs these basis LoRAs based on the input analogy pair. Comprehensive evaluations demonstrate our approach achieves state-of-the-art performance and significantly improves generalization to unseen visual transformations. Our findings suggest that LoRA basis decompositions are a promising direction for flexible visual manipulation. Code and data are in https://research.nvidia.com/labs/par/lorweb


翻译:视觉类比学习通过演示而非文本描述实现图像操控,使用户能够指定难以用语言表述的复杂变换。给定三元组 $\{\mathbf{a}$, $\mathbf{a}'$, $\mathbf{b}\}$,其目标是生成 $\mathbf{b}'$ 以满足 $\mathbf{a} : \mathbf{a}' :: \mathbf{b} : \mathbf{b}'$ 的关系。现有方法通常采用单一的低秩自适应(LoRA)模块将文本到图像模型适配于此任务,但面临一个根本性局限:试图通过固定的适配模块捕捉多样化的视觉变换空间会制约其泛化能力。受近期研究表明受限领域中的LoRA模块可张成具有意义且可插值的语义空间的启发,我们提出LoRWeB——一种通过在推理时动态组合已学习的变换基元来为每个类比任务专门化模型的新方法,通俗而言,即在“LoRA空间”中选择一个点。我们引入两个关键组件:(1)可学习的LoRA模块基组,用于张成不同视觉变换的空间;(2)轻量级编码器,根据输入的类比对动态选择并加权这些基LoRA模块。综合评估表明,我们的方法实现了最先进的性能,并显著提升了对未见视觉变换的泛化能力。我们的研究结果表明,LoRA基分解是实现灵活视觉操控的一个有前景的方向。代码与数据详见 https://research.nvidia.com/labs/par/lorweb

0
下载
关闭预览

相关内容

VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
【AAAI2023】用单塔Transformer统一视觉语言表示空间
专知会员服务
16+阅读 · 2022年11月27日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
专知会员服务
63+阅读 · 2021年3月12日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员