融合辅助信息的学习范式:从语言建模到表格建模

在过去十年中,深度学习模型通过在海量且高度同质化的数据集上训练日益庞大的架构,在众多机器学习任务中取得了显著进展。然而在实际应用中,这些模型往往忽略了现实世界数据中伴随的“额外”信息,而仅单纯依赖主数据模态进行泛化。本论文指出,可以系统地利用这类辅助信号,以提升模型的准确性、数据效率及可解释性。 论文的第一部分侧重于自然语言处理(NLP),并报告了三项研究。研究结果表明:(i) 通过将字符级语言模型与临床词典相结合,构建简单的符号-统计模型,能够有效提升嘈杂临床记录中的拼写纠错性能;(ii) 利用派生自语法解析树的结构化注意力掩码(Structural attention masks),可助力 Transformer 架构应对困难的组合泛化分割任务;(iii) 将出院小结与带时间戳的电子健康档案(EHR)表格进行关联,可进一步细化临床事件的时间线。 论文的第二部分转向表格数据领域,在该领域中,梯度提升树(Gradient-boosted trees)目前仍在线性基准测试中占据主导地位。首先,我提出了一种知识增强型框架,旨在将确定性信息注入表格学习器中;定义了用于编码列间关系的“概念核”(Concept kernels);并发布了一个包含列描述、嵌入向量及概念核的公共表格数据集基准。在此基础上,我提出了一种概念条件表格模型(Concept-conditioned tabular model),该模型将每个单元格表示为其数值与对应列语义嵌入的函数,并在扩展的数据集集合上对其进行了预训练。 综上所述,这些研究贡献旨在阐明如何将辅助领域知识转化为有效的归纳偏置。

成为VIP会员查看完整内容
12

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】迈向数据高效的多模态学习
专知会员服务
21+阅读 · 1月17日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
【CMU博士论文】学习匹配模型
专知会员服务
28+阅读 · 2024年12月17日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
【NUS博士论文】深度表示学习的视频基础模型,236页pdf
专知会员服务
33+阅读 · 2023年12月26日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
36+阅读 · 2023年2月15日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员