Text Data Integration - 专知论文

会员服务 ·

0

结构 · 结构化 · 集成 · 数据集 · 文本数据 ·

Text Data Integration

翻译：文本数据集成

Md Ataur Rahman,Dimitris Sacharidis,Oscar Romero,Sergi Nadal

from arxiv, Accepted for Publication as a Book Chapter in "Data Engineering for Data Science" (ISBN: 978-3-032-18765-9)

Data comes in many forms. From a shallow perspective, they can be viewed as being either in structured (e.g., as a relation, as key-value pairs) or unstructured (e.g., text, image) formats. So far, machines have been fairly good at processing and reasoning over structured data that follows a precise schema. However, the heterogeneity of data poses a significant challenge on how well diverse categories of data can be meaningfully stored and processed. Data Integration, a crucial part of the data engineering pipeline, addresses this by combining disparate data sources and providing unified data access to end-users. Until now, most data integration systems have leaned on only combining structured data sources. Nevertheless, unstructured data (a.k.a. free text) also contains a plethora of knowledge waiting to be utilized. Thus, in this chapter, we firstly make the case for the integration of textual data, to later present its challenges, state of the art and open problems.

翻译：数据以多种形式存在。从浅层视角来看，它们可以被视为结构化（例如，以关系形式或键值对形式）或非结构化（例如，文本、图像）格式。迄今为止，机器已能够相当熟练地处理并推理遵循精确模式的结构化数据。然而，数据的异构性对如何有意义地存储和处理不同类型数据构成了重大挑战。数据集成作为数据工程流程中的关键组成部分，通过整合分散的数据源并向最终用户提供统一的数据访问来解决这一问题。到目前为止，大多数数据集成系统仅专注于结合结构化数据源。然而，非结构化数据（即自由文本）也蕴含着大量亟待利用的知识。因此，在本章中，我们首先论证文本数据整合的必要性，随后介绍其面临的挑战、当前研究现状以及开放性问题。

0

相关内容

《图语言模型》最新教程，WSDM2024桥接文本数据和图形数据:走向语义和结构感知的知识发现

《图语言模型》最新教程，WSDM2024桥接文本数据和图形数据:走向语义和结构感知的知识发现

专知会员服务

33+阅读 · 2024年3月4日

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

专知会员服务

38+阅读 · 2023年4月11日

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

专知会员服务

28+阅读 · 2023年1月10日

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

专知会员服务

70+阅读 · 2022年8月20日

文档智能: 数据集、模型和应用

文档智能: 数据集、模型和应用

专知会员服务

63+阅读 · 2022年7月31日

中科院宗成庆老师新书《文本数据挖掘》，韩家炜作序，363页pdf阐述文本数据挖掘的理论模型、实现算法和相关应用

中科院宗成庆老师新书《文本数据挖掘》，韩家炜作序，363页pdf阐述文本数据挖掘的理论模型、实现算法和相关应用

专知会员服务

189+阅读 · 2021年6月1日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

【KDD2019|讲座推荐】从海量文本中构建和挖掘异构信息网络：Constructing and Mining Heterogeneous Information Networks from Massive Text

【KDD2019|讲座推荐】从海量文本中构建和挖掘异构信息网络：Constructing and Mining Heterogeneous Information Networks from Massive Text

专知会员服务

47+阅读 · 2019年12月11日

【南洋理工大学Xavier Bresson】图深度学习最近进展，35页ppt，Deep Learning on Graphs

【南洋理工大学Xavier Bresson】图深度学习最近进展，35页ppt，Deep Learning on Graphs

专知会员服务

113+阅读 · 2019年11月27日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

文本生成公开数据集/开源工具/经典论文详细列表分享

文本生成公开数据集/开源工具/经典论文详细列表分享

深度学习与NLP

30+阅读 · 2019年9月22日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

专知

16+阅读 · 2019年1月14日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

不要担心没数据！史上最全数据集网站汇总

不要担心没数据！史上最全数据集网站汇总

数盟

14+阅读 · 2018年4月18日

文本数据分析（二）：文本数据预处理的方法

文本数据分析（二）：文本数据预处理的方法

论智

16+阅读 · 2018年4月10日

文本聚类：从非结构化数据快速获取见解

文本聚类：从非结构化数据快速获取见解

Datartisan数据工匠

15+阅读 · 2017年10月12日

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

数据派THU

29+阅读 · 2017年8月2日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

大数据环境下基于量子计算的非结构化数据关键问题的研究

国家自然科学基金

2+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

Visual Template Inference for Data Extraction from Documents

Arxiv

0+阅读 · 6月8日

Living Databases: A Unified Model for Continuous Schema Evolution, Versioning, and Transformations

Arxiv

0+阅读 · 5月1日

SynSQL: Synthesizing Relational Databases for Robust Evaluation of Text-to-SQL Systems

Arxiv

0+阅读 · 4月29日

AV-SQL: Decomposing Complex Text-to-SQL Queries with Agentic Views

Arxiv

0+阅读 · 4月8日

Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models

Arxiv

0+阅读 · 4月5日

Mixing Visual and Textual Code

Arxiv

0+阅读 · 3月27日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

Graph Neural Networks for Text Classification: A Survey

Arxiv

34+阅读 · 2023年4月27日

Question-controlled Text-aware Image Captioning

Arxiv

10+阅读 · 2021年8月4日

A Survey on Data Augmentation for Text Classification

A Survey on Data Augmentation for Text Classification

Arxiv

16+阅读 · 2021年7月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

6+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《图语言模型》最新教程，WSDM2024桥接文本数据和图形数据:走向语义和结构感知的知识发现

《图语言模型》最新教程，WSDM2024桥接文本数据和图形数据:走向语义和结构感知的知识发现

专知会员服务

33+阅读 · 2024年3月4日

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

专知会员服务

38+阅读 · 2023年4月11日

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

专知会员服务

28+阅读 · 2023年1月10日

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

专知会员服务

70+阅读 · 2022年8月20日

文档智能: 数据集、模型和应用

文档智能: 数据集、模型和应用

专知会员服务

63+阅读 · 2022年7月31日

中科院宗成庆老师新书《文本数据挖掘》，韩家炜作序，363页pdf阐述文本数据挖掘的理论模型、实现算法和相关应用

中科院宗成庆老师新书《文本数据挖掘》，韩家炜作序，363页pdf阐述文本数据挖掘的理论模型、实现算法和相关应用

专知会员服务

189+阅读 · 2021年6月1日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

【KDD2019|讲座推荐】从海量文本中构建和挖掘异构信息网络：Constructing and Mining Heterogeneous Information Networks from Massive Text

【KDD2019|讲座推荐】从海量文本中构建和挖掘异构信息网络：Constructing and Mining Heterogeneous Information Networks from Massive Text

专知会员服务

47+阅读 · 2019年12月11日

【南洋理工大学Xavier Bresson】图深度学习最近进展，35页ppt，Deep Learning on Graphs

【南洋理工大学Xavier Bresson】图深度学习最近进展，35页ppt，Deep Learning on Graphs

专知会员服务

113+阅读 · 2019年11月27日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

文本生成公开数据集/开源工具/经典论文详细列表分享

文本生成公开数据集/开源工具/经典论文详细列表分享

深度学习与NLP

30+阅读 · 2019年9月22日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

专知

16+阅读 · 2019年1月14日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

不要担心没数据！史上最全数据集网站汇总

不要担心没数据！史上最全数据集网站汇总

数盟

14+阅读 · 2018年4月18日

文本数据分析（二）：文本数据预处理的方法

文本数据分析（二）：文本数据预处理的方法

论智

16+阅读 · 2018年4月10日

文本聚类：从非结构化数据快速获取见解

文本聚类：从非结构化数据快速获取见解

Datartisan数据工匠

15+阅读 · 2017年10月12日

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

数据派THU

29+阅读 · 2017年8月2日

相关论文

Visual Template Inference for Data Extraction from Documents

Arxiv

0+阅读 · 6月8日

Living Databases: A Unified Model for Continuous Schema Evolution, Versioning, and Transformations

Arxiv

0+阅读 · 5月1日

SynSQL: Synthesizing Relational Databases for Robust Evaluation of Text-to-SQL Systems

Arxiv

0+阅读 · 4月29日

AV-SQL: Decomposing Complex Text-to-SQL Queries with Agentic Views

Arxiv

0+阅读 · 4月8日

Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models

Arxiv

0+阅读 · 4月5日

Mixing Visual and Textual Code

Arxiv

0+阅读 · 3月27日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

Graph Neural Networks for Text Classification: A Survey

Arxiv

34+阅读 · 2023年4月27日

Question-controlled Text-aware Image Captioning

Arxiv

10+阅读 · 2021年8月4日

A Survey on Data Augmentation for Text Classification

A Survey on Data Augmentation for Text Classification

Arxiv

16+阅读 · 2021年7月7日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

大数据环境下基于量子计算的非结构化数据关键问题的研究

国家自然科学基金

2+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员