Visual In-Context Learning (VICL) aims to complete vision tasks by imitating pixel demonstrations. Recent work pioneered prompt fusion that combines the advantages of various demonstrations, which shows a promising way to extend VICL. Unfortunately, the patch-wise fusion framework and model-agnostic supervision hinder the exploitation of informative cues, thereby limiting performance gains. To overcome this deficiency, we introduce PromptHub, a framework that holistically strengthens multi-prompting through locality-aware fusion, concentration and alignment. PromptHub exploits spatial priors to capture richer contextual information, employs complementary concentration, alignment, and prediction objectives to mutually guide training, and incorporates data augmentation to further reinforce supervision. Extensive experiments on three fundamental vision tasks demonstrate the superiority of PromptHub. Moreover, we validate its universality, transferability, and robustness across out-of-distribution settings, and various retrieval scenarios. This work establishes a reliable locality-aware paradigm for prompt fusion, moving beyond prior patch-wise approaches. Code is available at https://github.com/luotc-why/ICLR26-PromptHub.


翻译:视觉上下文学习意在通过模仿像素级示例完成视觉任务。近期研究开创性地提出提示融合方法,通过结合不同示例的优势拓展视觉上下文学习。然而,分片式融合框架与模型无关的监督机制阻碍了信息线索的有效挖掘,从而限制了性能提升。为克服这一缺陷,我们提出PromptHub框架,通过局部感知融合、聚焦与对齐全面强化多提示机制。该框架利用空间先验捕获更丰富的上下文信息,采用互补的聚焦、对齐与预测目标协同指导训练,并通过数据增强进一步强化监督。在三个基础视觉任务上的大量实验证明了PromptHub的优越性。此外,我们还验证了其在分布外场景及多种检索设置下的通用性、可迁移性与鲁棒性。本研究建立了超越先前分片式方法的可靠局部感知提示融合范式。代码已开源至https://github.com/luotc-why/ICLR26-PromptHub。

0
下载
关闭预览

相关内容

【博士论文】基于多模态基础模型的上下文学习
专知会员服务
24+阅读 · 2025年12月17日
提示学习在计算机视觉中的分类、应用及展望
专知会员服务
19+阅读 · 2025年6月18日
【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型
专知会员服务
21+阅读 · 2024年3月8日
【CMU博士论文】多视图上下文理解的知识增强表示学习
专知会员服务
35+阅读 · 2022年8月11日
【南洋理工-CVPR2022】视觉语言模型的条件提示学习
专知会员服务
34+阅读 · 2022年3月13日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
0+阅读 · 23分钟前
21世纪的无人机战争
专知会员服务
1+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员