No Need to Train Your RDB Foundation Model - 专知论文

会员服务 ·

0

大模型 · 异构 · 关系数据 · 数据库 · 包含 ·

No Need to Train Your RDB Foundation Model

翻译：无需训练你的RDB基础模型

Linjie Xu,Yanlin Zhang,Quan Gan,Minjie Wang,David Wipf

from arxiv, International Conference on Machine Learning (ICML) 2026

Relational databases (RDBs) contain vast amounts of heterogeneous tabular information that can be exploited for predictive modeling purposes. But since the space of potential targets is vast across enterprise settings, how can we avoid retraining a new model each time we wish to predict a new quantity of interest? Foundation models based on in-context learning (ICL) offer a convenient option, but so far are largely restricted to single-table operability. In generalizing to multiple interrelated tables, it is essential to compress variably-sized RDB neighborhoods into fixed-length ICL samples for consumption by the decoder. However, the details here are critical: unlike existing supervised learning RDB pipelines, we provide theoretical and empirical evidence that ICL-specific compression should be constrained within high-dimensional RDB columns where all entities share units and roles, not across columns where the relevance of heterogeneous data types cannot be determined without extensive label information. Conditioned on this restriction, we then demonstrate that encoder expressiveness is actually not compromised by excluding trainable parameters. Hence we arrive at a principled family of RDB encoders that can be seamlessly paired with already-existing single-table ICL foundation models, whereby no training or fine-tuning is required. From a practical standpoint, we develop scalable SQL primitives to implement the encoder stage, resulting in the easy-to-use open-source RDBLearn foundation model capable of robust performance on unseen datasets out of the box.

翻译：关系数据库（RDB）包含大量异构表格信息，可用于预测建模。但由于企业场景中潜在目标空间极为庞大，我们如何避免每次预测新目标时都重新训练模型？基于上下文学习（ICL）的基础模型提供了便捷方案，但至今主要局限于单表操作。在推广至多关联表时，需将可变大小的RDB邻域压缩为固定长度的ICL样本供解码器处理。然而细节至关重要：与传统监督学习RDB流水线不同，我们提供理论与实证证据表明，ICL特定压缩应限制在实体共享单位与角色的高维RDB列内，而非跨列压缩——因为无法在缺乏大量标签信息的情况下确定异构数据类型间的相关性。在此约束下，我们进一步证明排除可训练参数并不会削弱编码器表达能力。由此提出一组符合原则的RDB编码器，可与现有单表ICL基础模型无缝配对，且无需训练或微调。从实用角度出发，我们开发了可扩展的SQL原语来实现编码阶段，最终形成易用的开源RDBLearn基础模型，能够在未见数据集上开箱即用并保持稳健性能。

0

相关内容

大模型

大模型是基于海量多源数据打造的预训练模型，是对原有算法模型的技术升级和产品迭代，用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习，以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

专知会员服务

96+阅读 · 2023年9月16日

大模型在AI芯片如何训练？AWS AI等KDD2023最新《在新兴AI芯片上训练大规模基础模型》教程，147页pdf

大模型在AI芯片如何训练？AWS AI等KDD2023最新《在新兴AI芯片上训练大规模基础模型》教程，147页pdf

专知会员服务

68+阅读 · 2023年8月20日

【KDD2023】基于大型图谱语料库的图感知语言模型预训练可以帮助多种图应用,12页pdf

【KDD2023】基于大型图谱语料库的图感知语言模型预训练可以帮助多种图应用,12页pdf

专知会员服务

31+阅读 · 2023年6月7日

【WWW2023教程】将网络规模的文本转化为知识:将预训练表示转化为文本挖掘应用

【WWW2023教程】将网络规模的文本转化为知识:将预训练表示转化为文本挖掘应用

专知会员服务

29+阅读 · 2023年5月17日

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

专知会员服务

173+阅读 · 2023年2月22日

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

专知会员服务

25+阅读 · 2022年8月23日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

图表示学习进展到哪了？看这份KDD2021《图表示学习:基础，方法，应用与系统》教程，众大牛讲解，附Slides

专知会员服务

61+阅读 · 2021年8月24日

神经网络不work？看下这份《训练神经网络实用技巧》，3页pdf

专知会员服务

56+阅读 · 2020年12月29日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

20项任务全面碾压BERT，全新XLNet预训练模型

20项任务全面碾压BERT，全新XLNet预训练模型

机器学习算法与Python学习

15+阅读 · 2019年6月20日

无需搭建和训练模型，87行代码搞定文章摘要生成

无需搭建和训练模型，87行代码搞定文章摘要生成

量子位

10+阅读 · 2019年1月3日

深度图像先验：无需学习即可生成新图像

深度图像先验：无需学习即可生成新图像

论智

45+阅读 · 2017年12月4日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下基于图模型的海量RDF数据管理关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

Language Models as Interfaces, Not Oracles: A Hybrid LLM-ML System for Pediatric Appendicitis

Arxiv

0+阅读 · 6月17日

Reinforcement Learning Foundation Models Should Already Be A Thing

Arxiv

0+阅读 · 6月17日

Learning task-specific subspaces via interventional post-training of speech foundation models

Arxiv

0+阅读 · 6月16日

Pretraining Recurrent Networks without Recurrence

Arxiv

0+阅读 · 6月4日

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Arxiv

0+阅读 · 5月28日

You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

Arxiv

0+阅读 · 5月20日

Towards Foundation Models for Relational Databases with Language Models and Graph Neural Networks

Arxiv

0+阅读 · 5月15日

From Schema to Signal: Retrieval-Augmented Modeling for Relational Data Analytics

Arxiv

0+阅读 · 5月14日

Combining pre-trained models via localized model averaging

Arxiv

0+阅读 · 5月13日

How to Train Your Latent Diffusion Language Model Jointly With the Latent Space

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

2+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

2+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

5+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

5+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

6+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

6+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

7+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

7+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

7+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

6+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

8+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

专知会员服务

96+阅读 · 2023年9月16日

大模型在AI芯片如何训练？AWS AI等KDD2023最新《在新兴AI芯片上训练大规模基础模型》教程，147页pdf

大模型在AI芯片如何训练？AWS AI等KDD2023最新《在新兴AI芯片上训练大规模基础模型》教程，147页pdf

专知会员服务

68+阅读 · 2023年8月20日

【KDD2023】基于大型图谱语料库的图感知语言模型预训练可以帮助多种图应用,12页pdf

【KDD2023】基于大型图谱语料库的图感知语言模型预训练可以帮助多种图应用,12页pdf

专知会员服务

31+阅读 · 2023年6月7日

【WWW2023教程】将网络规模的文本转化为知识:将预训练表示转化为文本挖掘应用

【WWW2023教程】将网络规模的文本转化为知识:将预训练表示转化为文本挖掘应用

专知会员服务

29+阅读 · 2023年5月17日

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

专知会员服务

173+阅读 · 2023年2月22日

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

专知会员服务

25+阅读 · 2022年8月23日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

图表示学习进展到哪了？看这份KDD2021《图表示学习:基础，方法，应用与系统》教程，众大牛讲解，附Slides

专知会员服务

61+阅读 · 2021年8月24日

神经网络不work？看下这份《训练神经网络实用技巧》，3页pdf

专知会员服务

56+阅读 · 2020年12月29日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

20项任务全面碾压BERT，全新XLNet预训练模型

20项任务全面碾压BERT，全新XLNet预训练模型

机器学习算法与Python学习

15+阅读 · 2019年6月20日

无需搭建和训练模型，87行代码搞定文章摘要生成

无需搭建和训练模型，87行代码搞定文章摘要生成

量子位

10+阅读 · 2019年1月3日

深度图像先验：无需学习即可生成新图像

深度图像先验：无需学习即可生成新图像

论智

45+阅读 · 2017年12月4日

相关论文

Language Models as Interfaces, Not Oracles: A Hybrid LLM-ML System for Pediatric Appendicitis

Arxiv

0+阅读 · 6月17日

Reinforcement Learning Foundation Models Should Already Be A Thing

Arxiv

0+阅读 · 6月17日

Learning task-specific subspaces via interventional post-training of speech foundation models

Arxiv

0+阅读 · 6月16日

Pretraining Recurrent Networks without Recurrence

Arxiv

0+阅读 · 6月4日

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Arxiv

0+阅读 · 5月28日

You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

Arxiv

0+阅读 · 5月20日

Towards Foundation Models for Relational Databases with Language Models and Graph Neural Networks

Arxiv

0+阅读 · 5月15日

From Schema to Signal: Retrieval-Augmented Modeling for Relational Data Analytics

Arxiv

0+阅读 · 5月14日

Combining pre-trained models via localized model averaging

Arxiv

0+阅读 · 5月13日

How to Train Your Latent Diffusion Language Model Jointly With the Latent Space

Arxiv

0+阅读 · 5月8日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下基于图模型的海量RDF数据管理关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员