Data comes in many forms. From a shallow perspective, they can be viewed as being either in structured (e.g., as a relation, as key-value pairs) or unstructured (e.g., text, image) formats. So far, machines have been fairly good at processing and reasoning over structured data that follows a precise schema. However, the heterogeneity of data poses a significant challenge on how well diverse categories of data can be meaningfully stored and processed. Data Integration, a crucial part of the data engineering pipeline, addresses this by combining disparate data sources and providing unified data access to end-users. Until now, most data integration systems have leaned on only combining structured data sources. Nevertheless, unstructured data (a.k.a. free text) also contains a plethora of knowledge waiting to be utilized. Thus, in this chapter, we firstly make the case for the integration of textual data, to later present its challenges, state of the art and open problems.


翻译:数据以多种形式存在。从浅层视角来看,它们可以被视为结构化(例如,以关系形式或键值对形式)或非结构化(例如,文本、图像)格式。迄今为止,机器已能够相当熟练地处理并推理遵循精确模式的结构化数据。然而,数据的异构性对如何有意义地存储和处理不同类型数据构成了重大挑战。数据集成作为数据工程流程中的关键组成部分,通过整合分散的数据源并向最终用户提供统一的数据访问来解决这一问题。到目前为止,大多数数据集成系统仅专注于结合结构化数据源。然而,非结构化数据(即自由文本)也蕴含着大量亟待利用的知识。因此,在本章中,我们首先论证文本数据整合的必要性,随后介绍其面临的挑战、当前研究现状以及开放性问题。

0
下载
关闭预览

相关内容

【干货书】大规模文本数据的结构化知识挖掘,200页pdf
专知会员服务
70+阅读 · 2022年8月20日
文档智能: 数据集、模型和应用
专知会员服务
63+阅读 · 2022年7月31日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
不要担心没数据!史上最全数据集网站汇总
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月27日
Arxiv
10+阅读 · 2021年8月4日
A Survey on Data Augmentation for Text Classification
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【干货书】大规模文本数据的结构化知识挖掘,200页pdf
专知会员服务
70+阅读 · 2022年8月20日
文档智能: 数据集、模型和应用
专知会员服务
63+阅读 · 2022年7月31日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员