Tabby：一种用于表格与结构化数据合成的语言模型架构 (Tabby: A Language Model Architecture for Tabular and Structured Data Synthesis) - 专知论文

会员服务 ·

0

合成 · 结构 · 结构化 · 模型架构 · 结构化数据 ·

Tabby: A Language Model Architecture for Tabular and Structured Data Synthesis

翻译：Tabby：一种用于表格与结构化数据合成的语言模型架构

Sonia Cromp,Satya Sai Srinath Namburi GNVV,Mohammed Alkhudhayri,Catherine Cao,Samuel Guo,Nicholas Roberts,Frederic Sala

from arxiv, 21 pages, 8 figures. Appearing in TMLR 2026

While advances in large language models (LLMs) have greatly improved the quality of synthetic text data in recent years, synthesizing tabular data has received relatively less attention. We address this disparity with Tabby, a simple but powerful post-training modification to the standard Transformer language model architecture, enabling its use for tabular dataset synthesis. Tabby enables the representation of differences across columns using Gated Mixture-of-Experts, with column-specific sets of parameters. Empirically, Tabby results in data quality near or equal to that of real data. By pairing our novel LLM table training technique, Plain, with Tabby, we observe up to a 44% improvement in quality over previous methods. We also show that Tabby extends beyond tables to more general structured data, reaching parity with real data on a nested JSON dataset as well.

翻译：尽管近年来大型语言模型（LLM）的进展显著提升了合成文本数据的质量，但表格数据的合成研究相对较少。本文通过Tabby模型弥补这一差距，该模型是对标准Transformer语言模型架构的一种简单而强大的训练后改进，使其能够用于表格数据集合成。Tabby通过门控混合专家机制配合列专属参数集，实现了对列间差异的表征。实验表明，Tabby生成的数据质量接近甚至等同于真实数据。将我们提出的新型LLM表格训练技术Plain与Tabby结合后，数据质量较现有方法最高可提升44%。研究还证明Tabby可扩展至更通用的结构化数据，在嵌套JSON数据集上同样达到了与真实数据相当的性能水平。

0

相关内容

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

专知会员服务

42+阅读 · 2025年4月16日

面向统计学家的大型语言模型概述

面向统计学家的大型语言模型概述

专知会员服务

32+阅读 · 2025年3月16日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

大语言模型简明指南

大语言模型简明指南

专知会员服务

143+阅读 · 2023年7月29日

《大型语言模型》最新报告，52页ppt，DeepMind Angeliki Lazaridou

《大型语言模型》最新报告，52页ppt，DeepMind Angeliki Lazaridou

专知会员服务

67+阅读 · 2022年9月17日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

使用 Bert 预训练模型文本分类（内附源码）

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构特性的数字地图多尺度表达研究

国家自然科学基金

1+阅读 · 2014年12月31日

公共就业规模和结构优化的机理与模型

国家自然科学基金

0+阅读 · 2014年12月31日

大规模格结构数据管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

代谢组学数据的多层次融合和模型评价方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Transport and Merge: Cross-Architecture Merging for Large Language Models

Arxiv

0+阅读 · 2月5日

TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models

Arxiv

0+阅读 · 2月5日

SemPipes -- Optimizable Semantic Data Operators for Tabular Machine Learning Pipelines

Arxiv

0+阅读 · 2月4日

Align to Structure: Aligning Large Language Models with Structural Information

Arxiv

0+阅读 · 2月3日

Human-LLM Collaborative Feature Engineering for Tabular Data

Arxiv

0+阅读 · 1月28日

TabDPT: Scaling Tabular Foundation Models on Real Data

Arxiv

0+阅读 · 1月17日

Tab-TRM: Tiny Recursive Model for Insurance Pricing on Tabular Data

Tab-TRM: Tiny Recursive Model for Insurance Pricing on Tabular Data

Arxiv

0+阅读 · 1月12日

Reservoir Computing as a Language Model

Arxiv

0+阅读 · 1月9日

TabiBERT: A Large-Scale ModernBERT Foundation Model and A Unified Benchmark for Turkish

Arxiv

0+阅读 · 1月5日

TabiBERT: A Large-Scale ModernBERT Foundation Model and Unified Benchmarking Framework for Turkish

Arxiv

0+阅读 · 1月1日

VIP会员

文章信息

相关主题

结构化数据

相关VIP内容

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

专知会员服务

42+阅读 · 2025年4月16日

面向统计学家的大型语言模型概述

面向统计学家的大型语言模型概述

专知会员服务

32+阅读 · 2025年3月16日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

大语言模型简明指南

大语言模型简明指南

专知会员服务

143+阅读 · 2023年7月29日

《大型语言模型》最新报告，52页ppt，DeepMind Angeliki Lazaridou

《大型语言模型》最新报告，52页ppt，DeepMind Angeliki Lazaridou

专知会员服务

67+阅读 · 2022年9月17日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

使用 Bert 预训练模型文本分类（内附源码）

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

相关论文

Transport and Merge: Cross-Architecture Merging for Large Language Models

Arxiv

0+阅读 · 2月5日

TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models

Arxiv

0+阅读 · 2月5日

SemPipes -- Optimizable Semantic Data Operators for Tabular Machine Learning Pipelines

Arxiv

0+阅读 · 2月4日

Align to Structure: Aligning Large Language Models with Structural Information

Arxiv

0+阅读 · 2月3日

Human-LLM Collaborative Feature Engineering for Tabular Data

Arxiv

0+阅读 · 1月28日

TabDPT: Scaling Tabular Foundation Models on Real Data

Arxiv

0+阅读 · 1月17日

Tab-TRM: Tiny Recursive Model for Insurance Pricing on Tabular Data

Tab-TRM: Tiny Recursive Model for Insurance Pricing on Tabular Data

Arxiv

0+阅读 · 1月12日

Reservoir Computing as a Language Model

Arxiv

0+阅读 · 1月9日

TabiBERT: A Large-Scale ModernBERT Foundation Model and A Unified Benchmark for Turkish

Arxiv

0+阅读 · 1月5日

TabiBERT: A Large-Scale ModernBERT Foundation Model and Unified Benchmarking Framework for Turkish

Arxiv

0+阅读 · 1月1日

相关基金

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构特性的数字地图多尺度表达研究

国家自然科学基金

1+阅读 · 2014年12月31日

公共就业规模和结构优化的机理与模型

国家自然科学基金

0+阅读 · 2014年12月31日

大规模格结构数据管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

代谢组学数据的多层次融合和模型评价方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员