We consider the problem of identifying the units of measurement in a data column that contains both numeric values and unit symbols in each row, e.g., "5.2 l", "7 pints". In this case we seek to identify the dimension of the column (e.g. volume) and relate the unit symbols to valid units (e.g. litre, pint) obtained from a knowledge graph. Below we present PUC, a Probabilistic Unit Canonicalizer that can accurately identify the units of measurement, extract semantic descriptions of quantitative data columns and canonicalize their entries. We present the first messy real-world tabular datasets annotated for units of measurement, which can enable and accelerate the research in this area. Our experiments on these datasets show that PUC achieves better results than existing solutions.


翻译:我们考虑在包含数字值和每个行的单位符号的数据列中确定计量单位的问题,例如“5.2升”、“7品脱”等数据列中的数值和单位符号。在这种情况下,我们力求确定该列的尺寸(如体积),并将单位符号与从知识图中获得的有效单位(如升,品脱)联系起来。下面我们介绍PUC,这是一个概率性单位加固器,可以准确确定计量单位,提取定量数据列的语义说明,并能够将其条目化。我们为测量单位提供了第一个混乱真实世界的表格数据集,这些数据集能够促进和加速这一领域的研究。我们在这些数据集上的实验表明,PUC比现有解决方案取得更好的结果。

0
下载
关闭预览

相关内容

【Google】梯度下降,48页ppt
专知会员服务
81+阅读 · 2020年12月5日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
0+阅读 · 2022年1月27日
Arxiv
9+阅读 · 2021年10月5日
Memory-Gated Recurrent Networks
Arxiv
12+阅读 · 2020年12月24日
The Measure of Intelligence
Arxiv
8+阅读 · 2019年11月5日
VIP会员
相关VIP内容
【Google】梯度下降,48页ppt
专知会员服务
81+阅读 · 2020年12月5日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关论文
Arxiv
0+阅读 · 2022年1月27日
Arxiv
9+阅读 · 2021年10月5日
Memory-Gated Recurrent Networks
Arxiv
12+阅读 · 2020年12月24日
The Measure of Intelligence
Arxiv
8+阅读 · 2019年11月5日
Top
微信扫码咨询专知VIP会员