NoSQL databases have been widely adopted in big data analytics, geospatial applications, and healthcare services, due to their flexibility and scalability. However, querying NoSQL databases requires specialized technical expertise, creating a high barrier for users. While recent studies have explored text-to-NoSQL problem, they primarily focus on single-turn interactions, ignoring the conversational nature of real-world queries. To bridge this gap, we introduce the Conversational Text-to-NoSQL task, which generates NoSQL queries given a natural language question, a NoSQL database, and the dialogue history. To address this task, we propose Stage-MCTS, a framework that endows small language models (SLMs) with NoSQL-specific reasoning capabilities by formulating query generation as a search problem. The framework employs Monte Carlo Tree Search (MCTS) guided by a rule-based reward to produce stepwise reasoning data, followed by progressive supervised fine-tuning (SFT) and self-training strategies. We further construct CoNoSQL, a cross-domain dataset with over 2,000 dialogues and 150 databases, to support evaluation. Experiments demonstrate that our approach outperforms state-of-the-art large reasoning models, improving execution value match (EVM) accuracy by up to 7.93%.


翻译:NoSQL数据库因其灵活性与可扩展性,已在大数据分析、地理空间应用及医疗健康服务中得到广泛采用。然而,查询NoSQL数据库需要专业技术知识,这对用户构成了较高门槛。尽管近期研究已开始探索文本转NoSQL问题,但主要聚焦于单轮交互,忽略了实际查询中固有的对话特性。为弥补这一空白,我们提出了对话式文本转NoSQL任务,该任务需根据自然语言问题、NoSQL数据库及对话历史生成NoSQL查询。针对此任务,我们提出Stage-MCTS框架,通过将查询生成构建为搜索问题,赋予小语言模型(SLMs)面向NoSQL的推理能力。该框架采用基于规则奖励引导的蒙特卡洛树搜索(MCTS)生成逐步推理数据,继而实施渐进式监督微调(SFT)与自训练策略。我们进一步构建了跨领域数据集CoNoSQL,包含超过2000组对话与150个数据库以支持评估。实验表明,该方法优于当前最先进的大规模推理模型,将执行值匹配(EVM)准确率最高提升7.93%。

0
下载
关闭预览

相关内容

NoSQL 全称是 Not Only SQL,是一种不同于关系型数据库的数据库管理系统设计方式。
文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
文本分类算法及其应用场景研究综述
专知会员服务
29+阅读 · 2024年6月18日
智能数据库学习型索引研究综述
专知会员服务
23+阅读 · 2023年1月14日
面向语义搜索的自然语言处理
专知会员服务
60+阅读 · 2021年12月18日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
基于MySQL Binlog的Elasticsearch数据同步实践
DBAplus社群
15+阅读 · 2019年9月3日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员