基础模型已成为计算机视觉和自然语言处理领域的一种强大范式,通过在海量多样化数据上进行大规模预训练,实现了极强的泛化能力。通过学习丰富且可迁移的表征,这些模型能够在统一的框架下处理广泛的下游任务。然而,其广泛应用仍受限于若干效率挑战,包括将预训练模型适配至新任务的高昂成本、常用骨干架构的计算低效,以及在资源受限设备上部署此类模型时难以承受的推理需求。

本论文从三个互补的视角研究了基础模型的效率问题。首先,为提升训练效率,我们提出了 MaskCLIP。这是一种视觉-语言模型 [1] 的轻量化适配方案,能够在不依赖人工像素级标注监督的情况下实现密集预测。通过保留预训练 CLIP 模型原始的视觉-语言对齐特性,并利用弱监督与间接监督,MaskCLIP 在保持对未知概念强泛化能力的同时,显著降低了标注成本。

其次,为提升模型效率,我们对卷积神经网络(CNN)与视觉 Transformer(ViT)提出了统一的解释。该视角深入分析了两者各自的归纳偏置、缩放行为(Scaling behavior)及计算特性,并阐明了这些架构在效率与性能之间的权衡关系。基于此解释,本论文分析了基于 Softmax 的注意力机制等核心组件的作用,并证明了替代设计如何在不牺牲精度的情况下实现更高的效率。

最后,为实现部署效率,我们开发了 EdgeSAM 和 EdgeTAM。通过架构重构与任务感知蒸馏(Task-aware distillation),我们将大型分割基础模型 [2, 3] 蒸馏为适用于移动端和边缘设备实时推理的轻量化变体。这些模型在大幅降低延迟和内存占用的同时,保留了其大型对应模型所具备的交互式与通用化能力。 在多个基准测试上的广泛实验表明,所提方法有效降低了标注成本,提升了计算效率,并使基础模型在设备端的实际部署成为可能。综上所述,这些贡献推动了基础模型在现实世界计算机视觉应用中的高效适配与部署。

成为VIP会员查看完整内容
14

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】利用信息论工具进行基础模型分析
专知会员服务
19+阅读 · 2025年8月31日
联邦学习中基础模型参数高效微调综述
专知会员服务
17+阅读 · 2025年5月5日
【NTU博士论文】数据高效的深度多模态学习
专知会员服务
25+阅读 · 2025年1月31日
【NTU博士论文】面向视觉能力神经模型的资源高效学习
专知会员服务
24+阅读 · 2025年1月2日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
40+阅读 · 2024年10月21日
【NTU博士论文】视觉神经模型的资源高效学习,155页pdf
专知会员服务
26+阅读 · 2024年5月18日
【NUS博士论文】深度表示学习的视频基础模型,236页pdf
专知会员服务
33+阅读 · 2023年12月26日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
【MIT博士论文】数据高效强化学习,176页pdf
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
最新内容
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
4+阅读 · 今天9:50
“史诗狂怒行动”中的海军动态
专知会员服务
8+阅读 · 4月5日
大语言模型同策略蒸馏研究综述
专知会员服务
7+阅读 · 4月5日
无人机蜂群:研究、挑战、未来发展方向
专知会员服务
11+阅读 · 4月4日
【博士论文】已对齐 AI 系统的持续脆弱性
专知会员服务
8+阅读 · 4月3日
潜空间综述:基础、演化、机制、能力与展望
专知会员服务
13+阅读 · 4月3日
《人工智能时代的国防工业政策》
专知会员服务
9+阅读 · 4月3日
相关VIP内容
【CMU博士论文】利用信息论工具进行基础模型分析
专知会员服务
19+阅读 · 2025年8月31日
联邦学习中基础模型参数高效微调综述
专知会员服务
17+阅读 · 2025年5月5日
【NTU博士论文】数据高效的深度多模态学习
专知会员服务
25+阅读 · 2025年1月31日
【NTU博士论文】面向视觉能力神经模型的资源高效学习
专知会员服务
24+阅读 · 2025年1月2日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
40+阅读 · 2024年10月21日
【NTU博士论文】视觉神经模型的资源高效学习,155页pdf
专知会员服务
26+阅读 · 2024年5月18日
【NUS博士论文】深度表示学习的视频基础模型,236页pdf
专知会员服务
33+阅读 · 2023年12月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员