Spatial natural language interface to database systems provide non-expert users with convenient access to spatial data through natural language queries. However, the scarcity of high-quality spatial natural language query corpora limits the performance of such systems. Existing methods rely on manual knowledge base construction and template-based dynamic generation, which suffer from low construction efficiency and unstable corpus quality. This paper presents semantic-aware spatial corpus construction (SSCC), a tool designed for constructing high-quality spatial natural language query and executable language query pair corpora. SSCC consists of two core modules: (i) a knowledge base construction module based on spatial relations, which extracts and determines spatial relations from datasets, and (ii) a template-augmented query pair corpus generation module, which produces query pairs via template matching and parameter substitution. The tool ensures geometric consistency and adherence to spatial logic in the generated spatial relations. Experimental results demonstrate that SSCC achieves (i) a 53x efficiency improvement for knowledge base construction and (ii) a 2.5x effectiveness improvement for query pair corpus. SSCC provides high-quality corpus support for spatial natural language interface training, substantially reducing both time and labor costs in corpus construction.


翻译:面向数据库系统的空间自然语言接口允许非专业用户通过自然语言查询便捷地访问空间数据。然而,高质量空间自然语言查询语料库的稀缺性限制了此类系统的性能。现有方法依赖于人工知识库构建和基于模板的动态生成,存在构建效率低、语料质量不稳定的问题。本文提出语义感知空间语料库构建工具,该工具专为构建高质量空间自然语言查询与可执行语言查询对语料库而设计。该工具包含两个核心模块:(一)基于空间关系的知识库构建模块,用于从数据集中提取并确定空间关系;(二)模板增强的查询对语料生成模块,通过模板匹配与参数替换生成查询对。该工具确保生成的空间关系具有几何一致性并符合空间逻辑。实验结果表明,该工具实现了(一)知识库构建效率53倍的提升,以及(二)查询对语料生成效果2.5倍的提升。该工具为空间自然语言接口的训练提供了高质量的语料支持,显著降低了语料构建的时间与人力成本。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年9月27日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
搜狗开源机器阅读理解工具箱
专知
19+阅读 · 2019年5月16日
收藏 | 中文公开聊天语料库及使用方法(附链接)
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
搜狗开源机器阅读理解工具箱
专知
19+阅读 · 2019年5月16日
收藏 | 中文公开聊天语料库及使用方法(附链接)
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员