SQUiD: Synthesizing Relational Databases from Unstructured Text - 专知论文

会员服务 ·

0

数据库 · 关系数据 · 结构 · 结构化 · 合成 ·

SQUiD: Synthesizing Relational Databases from Unstructured Text

翻译：SQUiD：从非结构化文本合成关系数据库

Mushtari Sadia,Zhenning Yang,Yunming Xiao,Ang Chen,Amrita Roy Chowdhury

Relational databases are central to modern data management, yet most data exists in unstructured forms like text documents. To bridge this gap, we leverage large language models (LLMs) to automatically synthesize a relational database by generating its schema and populating its tables from raw text. We introduce SQUiD, a novel neurosymbolic framework that decomposes this task into four stages, each with specialized techniques. Our experiments show that SQUiD consistently outperforms baselines across diverse datasets. Our code and datasets are publicly available at: https://github.com/Mushtari-Sadia/SQUiD.

翻译：关系数据库是现代数据管理的核心，然而大多数数据以文本文档等非结构化形式存在。为弥合这一差距，我们利用大语言模型（LLMs）从原始文本自动生成数据库模式并填充其表格，从而合成关系数据库。我们提出了SQUiD——一种新颖的神经符号框架，该框架将此任务分解为四个阶段，每个阶段均采用专门技术。实验表明，SQUiD在多种数据集上均持续优于基线方法。我们的代码与数据集已公开于：https://github.com/Mushtari-Sadia/SQUiD。

0

相关内容

数据库

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

【ACL2025教程】LLM时代的合成数据，228页slides

【ACL2025教程】LLM时代的合成数据，228页slides

专知会员服务

31+阅读 · 2025年7月30日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

探索大型语言模型在文本到SQL的应用：进展、挑战与机遇

探索大型语言模型在文本到SQL的应用：进展、挑战与机遇

专知会员服务

18+阅读 · 2025年6月2日

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

专知会员服务

43+阅读 · 2025年4月16日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

44+阅读 · 2024年10月19日

【KDD2024教程】大语言模型时代下的文本结构化知识自动挖掘

【KDD2024教程】大语言模型时代下的文本结构化知识自动挖掘

专知会员服务

32+阅读 · 2024年9月6日

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

专知会员服务

37+阅读 · 2024年8月23日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

【关系抽取】从文本中进行关系抽取的几种不同的方法

【关系抽取】从文本中进行关系抽取的几种不同的方法

深度学习自然语言处理

29+阅读 · 2020年3月30日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

AI研习社

12+阅读 · 2018年4月10日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

文本聚类：从非结构化数据快速获取见解

文本聚类：从非结构化数据快速获取见解

Datartisan数据工匠

15+阅读 · 2017年10月12日

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

数据派THU

29+阅读 · 2017年8月2日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下基于量子计算的非结构化数据关键问题的研究

国家自然科学基金

2+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

DS$^2$-Instruct: Domain-Specific Data Synthesis for Large Language Models Instruction Tuning

Arxiv

0+阅读 · 3月13日

Sema: A High-performance System for LLM-based Semantic Query Processing

Arxiv

0+阅读 · 3月12日

Relational In-Context Learning via Synthetic Pre-training with Structural Prior

Arxiv

0+阅读 · 3月4日

Knowledge Distillation with Structured Chain-of-Thought for Text-to-SQL

Arxiv

0+阅读 · 2月25日

AgenticSum: An Agentic Inference-Time Framework for Faithful Clinical Text Summarization

Arxiv

0+阅读 · 2月23日

DTBench: A Synthetic Benchmark for Document-to-Table Extraction

Arxiv

0+阅读 · 2月17日

LLMStructBench: Benchmarking Large Language Model Structured Data Extraction

Arxiv

0+阅读 · 2月16日

DTBench: A Synthetic Benchmark for Document-to-Table Extraction

Arxiv

0+阅读 · 2月14日

PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models

Arxiv

0+阅读 · 2月3日

BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

0+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

1+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

2+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

2+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

0+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

3+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

2+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

4+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

3+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

8+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

7+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

5+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

7+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

6+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

5+阅读 · 6月24日

相关VIP内容

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

【ACL2025教程】LLM时代的合成数据，228页slides

【ACL2025教程】LLM时代的合成数据，228页slides

专知会员服务

31+阅读 · 2025年7月30日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

探索大型语言模型在文本到SQL的应用：进展、挑战与机遇

探索大型语言模型在文本到SQL的应用：进展、挑战与机遇

专知会员服务

18+阅读 · 2025年6月2日

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

专知会员服务

43+阅读 · 2025年4月16日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

44+阅读 · 2024年10月19日

【KDD2024教程】大语言模型时代下的文本结构化知识自动挖掘

【KDD2024教程】大语言模型时代下的文本结构化知识自动挖掘

专知会员服务

32+阅读 · 2024年9月6日

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

专知会员服务

37+阅读 · 2024年8月23日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

网状网络及其在军事领域的运用

无美国参与的欧洲战争方式（万字长文）

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

相关资讯

【关系抽取】从文本中进行关系抽取的几种不同的方法

【关系抽取】从文本中进行关系抽取的几种不同的方法

深度学习自然语言处理

29+阅读 · 2020年3月30日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

AI研习社

12+阅读 · 2018年4月10日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

文本聚类：从非结构化数据快速获取见解

文本聚类：从非结构化数据快速获取见解

Datartisan数据工匠

15+阅读 · 2017年10月12日

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

数据派THU

29+阅读 · 2017年8月2日

相关论文

DS$^2$-Instruct: Domain-Specific Data Synthesis for Large Language Models Instruction Tuning

Arxiv

0+阅读 · 3月13日

Sema: A High-performance System for LLM-based Semantic Query Processing

Arxiv

0+阅读 · 3月12日

Relational In-Context Learning via Synthetic Pre-training with Structural Prior

Arxiv

0+阅读 · 3月4日

Knowledge Distillation with Structured Chain-of-Thought for Text-to-SQL

Arxiv

0+阅读 · 2月25日

AgenticSum: An Agentic Inference-Time Framework for Faithful Clinical Text Summarization

Arxiv

0+阅读 · 2月23日

DTBench: A Synthetic Benchmark for Document-to-Table Extraction

Arxiv

0+阅读 · 2月17日

LLMStructBench: Benchmarking Large Language Model Structured Data Extraction

Arxiv

0+阅读 · 2月16日

DTBench: A Synthetic Benchmark for Document-to-Table Extraction

Arxiv

0+阅读 · 2月14日

PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models

Arxiv

0+阅读 · 2月3日

BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation

Arxiv

0+阅读 · 1月31日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下基于量子计算的非结构化数据关键问题的研究

国家自然科学基金

2+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员