人工智能 (AI) 已在从聊天机器人到自动驾驶的各类应用中展现出令人瞩目的能力。尽管取得了这些进展,但大量学术研究仍致力于在有限的标准数据集上优化模型。这些数据集主要集中于语言和视觉等少数主流领域 (Dominant domains),且多采用固定格式设计以简化建模过程。然而,现实世界中的数据具有本质上的多样性,在类型、分布、复杂性以及时变特性方面表现出显著差异。 本论文旨在开发新方法,以构建能够高效处理异构数据 (Heterogeneous data) 的 AI 系统。我们将这种异构性归纳为三个关键维度:数据类型(原始形式,如文本、像素或时间序列数据)、应用域(所属领域,如对话、图像识别或科学发现)以及复杂性(同类数据及同领域内部的差异)。 值得注意的是,数据类型与应用域是两个截然不同的概念。例如,基因组序列虽然可以表示为文本标记 (Tokens),但并不属于自然语言数据;卫星图像与标准的自然图像也需要不同的处理方式。对同一类型的所有数据采用统一的建模方法会限制性能表现,而为每个任务从头开始训练独立模型则会耗费大量的资源与时间。 为了权衡这一矛盾,本论文开发了数据驱动的对齐方法。这些方法在利用现有架构和预训练大语言模型 (LLMs) 的同时,以样本和计算高效的方式使模型适配于多样化任务。具体而言,我们提出了以下方法: 1. 通过对齐数据表示与架构设计以实现跨数据类型的适配(如 ORCADASHRECODE); 1. 通过提示微调 (如 TAG-LLM) 或后训练 (如 ScribeAgentTTI) 使 LLM 专门化,以应对特定领域的应用; 1. 通过改进分词方案 (Tokenization) 以解决复杂性的差异(如 CAT)。

为强调实际应用价值,本研究涵盖了广泛的数据谱系,从自然语言到结构化 HTML,从自然图像到物理学和基因组学等科学领域。

成为VIP会员查看完整内容
17

相关内容

【CMU博士论文】面向多智能体世界的机器学习
专知会员服务
24+阅读 · 1月25日
【CMU博士论文】分布偏移下的可信机器学习
专知会员服务
17+阅读 · 1月1日
【CMU博士论文】迈向高效自动机器学习,184页pdf
专知会员服务
34+阅读 · 2023年2月24日
AI综述专栏 | 跨领域推荐系统文献综述(上)
人工智能前沿讲习班
13+阅读 · 2018年5月16日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员