Modern computer vision is converging on a closed loop in which perception, reasoning and generation mutually reinforce each other. However, this loop remains incomplete: the top-down influence of high-level reasoning on the foundational learning of low-level perceptual features is not yet underexplored. This paper addresses this gap by proposing a new paradigm for pretraining foundation models in downstream domains. We introduce Visual insTruction Pretraining (ViTP), a novel approach that directly leverages reasoning to enhance perception. ViTP embeds a Vision Transformer (ViT) backbone within a Vision-Language Model and pretrains it end-to-end using a rich corpus of visual instruction data curated from target downstream domains. ViTP is powered by our proposed Visual Robustness Learning (VRL), which compels the ViT to learn robust and domain-relevant features from a sparse set of visual tokens. Extensive experiments on 16 challenging remote sensing and medical imaging benchmarks demonstrate that ViTP establishes new state-of-the-art performance across a diverse range of downstream tasks. The code is available at https://github.com/zcablii/ViTP.


翻译:现代计算机视觉正朝着感知、推理与生成相互增强的闭环范式发展。然而,该闭环目前仍不完整:高层推理对底层感知特征基础学习的自上而下影响尚未得到充分探索。本文针对这一空白,提出了一种面向下游领域的基础模型预训练新范式。我们引入了视觉指令预训练(ViTP),这是一种直接利用推理来增强感知的新方法。ViTP将Vision Transformer(ViT)骨干网络嵌入到视觉-语言模型中,并利用从目标下游领域精心构建的丰富视觉指令数据对其进行端到端预训练。ViTP的核心是我们提出的视觉鲁棒性学习(VRL)机制,该机制迫使ViT从稀疏的视觉标记中学习鲁棒且与领域相关的特征。在16个具有挑战性的遥感与医学影像基准测试上进行的大量实验表明,ViTP在多种下游任务中均取得了最先进的性能。代码已发布于 https://github.com/zcablii/ViTP。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
预训练视觉模型的参数高效微调
专知会员服务
32+阅读 · 2024年3月19日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
预训练视觉模型的参数高效微调
专知会员服务
32+阅读 · 2024年3月19日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员