【NTU博士论文】基础模型的高效适配

基础模型已成为计算机视觉和自然语言处理领域的一种强大范式，通过在海量多样化数据上进行大规模预训练，实现了极强的泛化能力。通过学习丰富且可迁移的表征，这些模型能够在统一的框架下处理广泛的下游任务。然而，其广泛应用仍受限于若干效率挑战，包括将预训练模型适配至新任务的高昂成本、常用骨干架构的计算低效，以及在资源受限设备上部署此类模型时难以承受的推理需求。

本论文从三个互补的视角研究了基础模型的效率问题。首先，为提升训练效率，我们提出了 MaskCLIP。这是一种视觉-语言模型 [1] 的轻量化适配方案，能够在不依赖人工像素级标注监督的情况下实现密集预测。通过保留预训练 CLIP 模型原始的视觉-语言对齐特性，并利用弱监督与间接监督，MaskCLIP 在保持对未知概念强泛化能力的同时，显著降低了标注成本。

其次，为提升模型效率，我们对卷积神经网络（CNN）与视觉 Transformer（ViT）提出了统一的解释。该视角深入分析了两者各自的归纳偏置、缩放行为（Scaling behavior）及计算特性，并阐明了这些架构在效率与性能之间的权衡关系。基于此解释，本论文分析了基于 Softmax 的注意力机制等核心组件的作用，并证明了替代设计如何在不牺牲精度的情况下实现更高的效率。

最后，为实现部署效率，我们开发了 EdgeSAM 和 EdgeTAM。通过架构重构与任务感知蒸馏（Task-aware distillation），我们将大型分割基础模型 [2, 3] 蒸馏为适用于移动端和边缘设备实时推理的轻量化变体。这些模型在大幅降低延迟和内存占用的同时，保留了其大型对应模型所具备的交互式与通用化能力。在多个基准测试上的广泛实验表明，所提方法有效降低了标注成本，提升了计算效率，并使基础模型在设备端的实际部署成为可能。综上所述，这些贡献推动了基础模型在现实世界计算机视觉应用中的高效适配与部署。

成为VIP会员查看完整内容

相关内容

博士论文

关注 131

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

专知会员服务

11+阅读 · 1月19日

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

专知会员服务

14+阅读 · 2025年12月14日

【CMU博士论文】利用信息论工具进行基础模型分析

专知会员服务

19+阅读 · 2025年8月31日

联邦学习中基础模型参数高效微调综述

专知会员服务

17+阅读 · 2025年5月5日