多模态学习(Multimodal learning)整合了视觉、语言和声音信息,在人类感知与认知中发挥着核心作用。人类能够自然地结合不同模态的输入来理解复杂环境,通过有限的示例进行学习,并跨任务进行迁移泛化。受此启发,多模态学习领域的近期研究在视觉问答(VQA)、图文检索和多模态信息提取等任务中取得了显著进展。尽管成就斐然,现有模型仍面临关键挑战,限制了其在真实世界场景中的可扩展性和适用性。 一个主要的局限是:无论是在预训练还是下游任务中,模型都高度依赖大规模的人工标注数据集。这类数据的收集工作劳动强度大、成本高昂且难以规模化,特别是对于涉及上下文和时序推理的复杂模态(如开放式推理和视频理解)而言。此外,这些模型在标注数据稀缺的低数据场景(low-resource settings)下往往难以实现泛化。同时,许多前沿模型采用“闭卷(closed-book)”模式训练,即所有知识均存储在模型参数中。这阻碍了模型动态整合外部知识源(如结构化数据库或大语言模型)的能力,限制了其在开放域推理中的灵活性与可解释性。 本论文通过三项核心策略推进数据高效的多模态学习,旨在解决上述局限。首先,我们研究了如何将结构化人类先验(structured human priors)嵌入到模型设计与训练中,以提升模型在小样本范式下的学习效率与泛化能力。其次,我们探索了弱监督信号(weak supervision signals)的利用——例如自然生成的图文对和外部知识库——以增强表示学习,从而减少对海量手工标注的依赖。第三,我们引入了偏好学习(preference-learning)框架,利用大语言模型(LLM)指导复杂任务的训练,特别是在传统标签难以定义或量化的视频理解和开放域推理领域。通过这些组成部分,本研究旨在减少对显式监督的需求,同时提升模型的性能、可解释性与自适应能力,为构建更具扩展性且鲁棒的多模态人工智能系统做出贡献。

成为VIP会员查看完整内容
4

相关内容

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。
【普林斯顿博士论文】在线学习:优化、控制与学习理论
专知会员服务
30+阅读 · 2025年10月19日
【阿姆斯特丹博士论文】终端设备上的高效深度学习推理
【NTU博士论文】基于协作式多智能体强化学习的决策制定
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
40+阅读 · 2024年10月21日
综述| 当图神经网络遇上强化学习
图与推荐
35+阅读 · 2022年7月1日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
A Survey of Large Language Models
Arxiv
497+阅读 · 2023年3月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员