【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统 - 专知VIP

会员服务 ·

9

异构数据导航 ·

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人工智能 (AI) 已在从聊天机器人到自动驾驶的各类应用中展现出令人瞩目的能力。尽管取得了这些进展，但大量学术研究仍致力于在有限的标准数据集上优化模型。这些数据集主要集中于语言和视觉等少数主流领域 (Dominant domains)，且多采用固定格式设计以简化建模过程。然而，现实世界中的数据具有本质上的多样性，在类型、分布、复杂性以及时变特性方面表现出显著差异。本论文旨在开发新方法，以构建能够高效处理异构数据 (Heterogeneous data) 的 AI 系统。我们将这种异构性归纳为三个关键维度：数据类型（原始形式，如文本、像素或时间序列数据）、应用域（所属领域，如对话、图像识别或科学发现）以及复杂性（同类数据及同领域内部的差异）。值得注意的是，数据类型与应用域是两个截然不同的概念。例如，基因组序列虽然可以表示为文本标记 (Tokens)，但并不属于自然语言数据；卫星图像与标准的自然图像也需要不同的处理方式。对同一类型的所有数据采用统一的建模方法会限制性能表现，而为每个任务从头开始训练独立模型则会耗费大量的资源与时间。为了权衡这一矛盾，本论文开发了数据驱动的对齐方法。这些方法在利用现有架构和预训练大语言模型 (LLMs) 的同时，以样本和计算高效的方式使模型适配于多样化任务。具体而言，我们提出了以下方法： 1. 通过对齐数据表示与架构设计以实现跨数据类型的适配（如 ORCA、DASH、RECODE）； 1. 通过提示微调 (如 TAG-LLM) 或后训练 (如 ScribeAgent、TTI) 使 LLM 专门化，以应对特定领域的应用； 1. 通过改进分词方案 (Tokenization) 以解决复杂性的差异（如 CAT）。

为强调实际应用价值，本研究涵盖了广泛的数据谱系，从自然语言到结构化 HTML，从自然图像到物理学和基因组学等科学领域。

成为VIP会员查看完整内容

19

相关内容

【CMU博士论文】面向多智能体世界的机器学习

【CMU博士论文】面向多智能体世界的机器学习

专知会员服务

26+阅读 · 1月25日

【CMU博士论文】分布偏移下的可信机器学习

【CMU博士论文】分布偏移下的可信机器学习

专知会员服务

17+阅读 · 1月1日

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

专知会员服务

23+阅读 · 2025年2月9日

【剑桥大学博士论文】使用Dataflow实现可维护和可解释的AI系统，189页pdf

【剑桥大学博士论文】使用Dataflow实现可维护和可解释的AI系统，189页pdf

专知会员服务

34+阅读 · 2024年5月8日

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

专知会员服务

73+阅读 · 2024年1月24日

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

专知会员服务

53+阅读 · 2023年7月1日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

76+阅读 · 2023年3月21日

【CMU博士论文】迈向高效自动机器学习，184页pdf

【CMU博士论文】迈向高效自动机器学习，184页pdf

专知会员服务

34+阅读 · 2023年2月24日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【CMU博士论文】构建智能自主导航代理，附论文slides与视频

专知会员服务

55+阅读 · 2021年7月1日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

专知

62+阅读 · 2022年9月7日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

36+阅读 · 2022年7月31日

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

专知

16+阅读 · 2022年5月3日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

AI综述专栏 | 跨领域推荐系统文献综述（上）

AI综述专栏 | 跨领域推荐系统文献综述（上）

人工智能前沿讲习班

13+阅读 · 2018年5月16日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的地理共享数据个性化检索研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

The Virtuous Cycle: AI-Powered Vector Search and Vector Search-Augmented AI

Arxiv

0+阅读 · 3月10日

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Arxiv

0+阅读 · 3月4日

The Path to Conversational AI Tutors: Integrating Tutoring Best Practices and Targeted Technologies to Produce Scalable AI Agents

Arxiv

0+阅读 · 2月22日

Mining Type Constructs Using Patterns in AI-Generated Code

Arxiv

0+阅读 · 2月20日

Toward Human-Centered Human-AI Interaction: Advances in Theoretical Frameworks and Practice

Arxiv

1+阅读 · 2月18日

Guided Collaboration in Heterogeneous LLM-Based Multi-Agent Systems via Entropy-Based Understanding Assessment and Experience Retrieval

Arxiv

0+阅读 · 2月14日

Mathematics and Machine Creativity: A Survey on Bridging Mathematics with AI

Arxiv

0+阅读 · 2月13日

Data Science and Technology Towards AGI Part I: Tiered Data Management

Arxiv

0+阅读 · 2月9日

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Arxiv

0+阅读 · 2月4日

AI for Scientific Discovery is a Social Problem

Arxiv

0+阅读 · 1月30日

VIP会员

相关主题

异构数据导航

最新内容

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

1+阅读 · 今天14:04

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

1+阅读 · 今天13:54

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

5+阅读 · 今天13:49

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

3+阅读 · 今天13:38

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

4+阅读 · 今天13:37

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

4+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

6+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

相关VIP内容

【CMU博士论文】面向多智能体世界的机器学习

【CMU博士论文】面向多智能体世界的机器学习

专知会员服务

26+阅读 · 1月25日

【CMU博士论文】分布偏移下的可信机器学习

【CMU博士论文】分布偏移下的可信机器学习

专知会员服务

17+阅读 · 1月1日

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

专知会员服务

23+阅读 · 2025年2月9日

【剑桥大学博士论文】使用Dataflow实现可维护和可解释的AI系统，189页pdf

【剑桥大学博士论文】使用Dataflow实现可维护和可解释的AI系统，189页pdf

专知会员服务

34+阅读 · 2024年5月8日

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

专知会员服务

73+阅读 · 2024年1月24日

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

专知会员服务

53+阅读 · 2023年7月1日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

76+阅读 · 2023年3月21日

【CMU博士论文】迈向高效自动机器学习，184页pdf

【CMU博士论文】迈向高效自动机器学习，184页pdf

专知会员服务

34+阅读 · 2023年2月24日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【CMU博士论文】构建智能自主导航代理，附论文slides与视频

专知会员服务

55+阅读 · 2021年7月1日

热门VIP内容

开通专知VIP会员享更多权益服务

美以伊战争：首次人工智能战争——军事自主性困境

《美海军利用扩展现实增强知识流动研究》300页报告

以色列-美国-伊朗战争中的无人机：关键要点

《Palantir任务保障性软件安全标准（MA-S2）》

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

专知

62+阅读 · 2022年9月7日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

36+阅读 · 2022年7月31日

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

专知

16+阅读 · 2022年5月3日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

AI综述专栏 | 跨领域推荐系统文献综述（上）

AI综述专栏 | 跨领域推荐系统文献综述（上）

人工智能前沿讲习班

13+阅读 · 2018年5月16日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的地理共享数据个性化检索研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

相关论文

The Virtuous Cycle: AI-Powered Vector Search and Vector Search-Augmented AI

Arxiv

0+阅读 · 3月10日

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Arxiv

0+阅读 · 3月4日

The Path to Conversational AI Tutors: Integrating Tutoring Best Practices and Targeted Technologies to Produce Scalable AI Agents

Arxiv

0+阅读 · 2月22日

Mining Type Constructs Using Patterns in AI-Generated Code

Arxiv

0+阅读 · 2月20日

Toward Human-Centered Human-AI Interaction: Advances in Theoretical Frameworks and Practice

Arxiv

1+阅读 · 2月18日

Guided Collaboration in Heterogeneous LLM-Based Multi-Agent Systems via Entropy-Based Understanding Assessment and Experience Retrieval

Arxiv

0+阅读 · 2月14日

Mathematics and Machine Creativity: A Survey on Bridging Mathematics with AI

Arxiv

0+阅读 · 2月13日

Data Science and Technology Towards AGI Part I: Tiered Data Management

Arxiv

0+阅读 · 2月9日

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Arxiv

0+阅读 · 2月4日

AI for Scientific Discovery is a Social Problem

Arxiv

0+阅读 · 1月30日

微信扫码咨询专知VIP会员