人工智能 (AI) 已在从聊天机器人到自动驾驶的各类应用中展现出令人瞩目的能力。尽管取得了这些进展,但大量学术研究仍致力于在有限的标准数据集上优化模型。这些数据集主要集中于语言和视觉等少数主流领域 (Dominant domains),且多采用固定格式设计以简化建模过程。然而,现实世界中的数据具有本质上的多样性,在类型、分布、复杂性以及时变特性方面表现出显著差异。 本论文旨在开发新方法,以构建能够高效处理异构数据 (Heterogeneous data) 的 AI 系统。我们将这种异构性归纳为三个关键维度:数据类型(原始形式,如文本、像素或时间序列数据)、应用域(所属领域,如对话、图像识别或科学发现)以及复杂性(同类数据及同领域内部的差异)。 值得注意的是,数据类型与应用域是两个截然不同的概念。例如,基因组序列虽然可以表示为文本标记 (Tokens),但并不属于自然语言数据;卫星图像与标准的自然图像也需要不同的处理方式。对同一类型的所有数据采用统一的建模方法会限制性能表现,而为每个任务从头开始训练独立模型则会耗费大量的资源与时间。 为了权衡这一矛盾,本论文开发了数据驱动的对齐方法。这些方法在利用现有架构和预训练大语言模型 (LLMs) 的同时,以样本和计算高效的方式使模型适配于多样化任务。具体而言,我们提出了以下方法: 1. 通过对齐数据表示与架构设计以实现跨数据类型的适配(如 ORCA、DASH、RECODE); 1. 通过提示微调 (如 TAG-LLM) 或后训练 (如 ScribeAgent、TTI) 使 LLM 专门化,以应对特定领域的应用; 1. 通过改进分词方案 (Tokenization) 以解决复杂性的差异(如 CAT)。
为强调实际应用价值,本研究涵盖了广泛的数据谱系,从自然语言到结构化 HTML,从自然图像到物理学和基因组学等科学领域。