Knowledge Distillation with Structured Chain-of-Thought for Text-to-SQL - 专知论文

会员服务 ·

0

结构 · 结构化 · 蒸馏 · SQL · 语言模型 ·

Knowledge Distillation with Structured Chain-of-Thought for Text-to-SQL

翻译：基于结构化思维链的知识蒸馏用于文本到SQL转换

Khushboo Thaker,Yony Bresler

from arxiv, Accepted at the 39th Canadian Conference on Artificial Intelligence (Canadian AI 2026). This is the extended version containing additional details and appendices omitted from the camera-ready proceedings due to space constraints

Deploying accurate Text-to-SQL systems at the enterprise level faces a difficult trilemma involving cost, security and performance. Current solutions force enterprises to choose between expensive, proprietary Large Language Models (LLMs) and low-performing Small Language Models (SLMs). Efforts to improve SLMs often rely on distilling reasoning from large LLMs using unstructured Chain-of-Thought (CoT) traces, a process that remains inherently ambiguous. Instead, we hypothesize that a formal, structured reasoning representation provides a clearer, more reliable teaching signal, as the Text-to-SQL task requires explicit and precise logical steps. To evaluate this hypothesis, we propose Struct-SQL, a novel Knowledge Distillation (KD) framework that trains an SLM to emulate a powerful large LLM. Consequently, we adopt a query execution plan as a formal blueprint to derive this structured reasoning. Our SLM, distilled with structured CoT, achieves an absolute improvement of 8.1% over an unstructured CoT distillation baseline. A detailed error analysis reveals that a key factor in this gain is a marked reduction in syntactic errors. This demonstrates that teaching a model to reason using a structured logical blueprint is beneficial for reliable SQL generation in SLMs.

翻译：在企业层面部署精确的文本到SQL系统面临着成本、安全性和性能的三重困境。现有解决方案迫使企业必须在昂贵、专有的大型语言模型与性能低下的小型语言模型之间做出选择。提升小型语言模型的尝试通常依赖于从大型语言模型蒸馏非结构化思维链推理轨迹，这一过程本质上仍存在模糊性。相反，我们假设形式化的结构化推理表征能提供更清晰、更可靠的教学信号，因为文本到SQL任务需要明确且精确的逻辑步骤。为验证这一假设，我们提出Struct-SQL——一种新颖的知识蒸馏框架，通过训练小型语言模型来模拟强大的大型语言模型。为此，我们采用查询执行计划作为形式化蓝图来推导这种结构化推理。采用结构化思维链蒸馏的小型语言模型，相比非结构化思维链蒸馏基线实现了8.1%的绝对性能提升。详细的错误分析表明，这一增益的关键因素在于语法错误显著减少。这证明通过结构化逻辑蓝图教授模型进行推理，有助于提升小型语言模型生成可靠SQL的能力。

0

相关内容

探索大型语言模型在文本到SQL的应用：进展、挑战与机遇

探索大型语言模型在文本到SQL的应用：进展、挑战与机遇

专知会员服务

18+阅读 · 2025年6月2日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

【KDD2024教程】大语言模型时代下的文本结构化知识自动挖掘

【KDD2024教程】大语言模型时代下的文本结构化知识自动挖掘

专知会员服务

32+阅读 · 2024年9月6日

大型语言模型的知识蒸馏综述：方法、评估与应用

大型语言模型的知识蒸馏综述：方法、评估与应用

专知会员服务

79+阅读 · 2024年7月4日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

【WWW2023教程】将网络规模的文本转化为知识:将预训练表示转化为文本挖掘应用

【WWW2023教程】将网络规模的文本转化为知识:将预训练表示转化为文本挖掘应用

专知会员服务

29+阅读 · 2023年5月17日

【谷歌Kelvin Guu】语言模型可以是知识库吗？，46页ppt

专知会员服务

27+阅读 · 2021年10月12日

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

专知会员服务

68+阅读 · 2020年4月16日

【AAAI2020接受论文】利用图卷积网络将知识注入文本任务，Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

【AAAI2020接受论文】利用图卷积网络将知识注入文本任务，Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

专知会员服务

45+阅读 · 2019年11月11日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

SynSQL: Synthesizing Relational Databases for Robust Evaluation of Text-to-SQL Systems

Arxiv

0+阅读 · 4月29日

A Demonstration of SQLyzr: A Platform for Fine-Grained Text-to-SQL Evaluation and Analysis

Arxiv

0+阅读 · 4月28日

SQLyzr: A Comprehensive Benchmark and Evaluation Platform for Text-to-SQL

Arxiv

0+阅读 · 4月27日

DeepEye-SQL: A Software-Engineering-Inspired Text-to-SQL Framework

Arxiv

0+阅读 · 4月3日

ReViSQL: Achieving Human-Level Text-to-SQL

Arxiv

0+阅读 · 3月30日

ReViSQL: Achieving Human-Level Text-to-SQL

Arxiv

0+阅读 · 3月20日

TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

Arxiv

0+阅读 · 3月17日

Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

Arxiv

0+阅读 · 3月1日

Knowledge Distillation with Structured Chain-of-Thought for Text-to-SQL

Arxiv

0+阅读 · 2月25日

SCoTER: Structured Chain-of-Thought Transfer for Enhanced Recommendation

Arxiv

0+阅读 · 2月25日

VIP会员

文章信息

相关主题

最新内容

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

1+阅读 · 20分钟前

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

2+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

2+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

2+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

5+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

4+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

6+阅读 · 6月16日

相关VIP内容

探索大型语言模型在文本到SQL的应用：进展、挑战与机遇

探索大型语言模型在文本到SQL的应用：进展、挑战与机遇

专知会员服务

18+阅读 · 2025年6月2日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

【KDD2024教程】大语言模型时代下的文本结构化知识自动挖掘

【KDD2024教程】大语言模型时代下的文本结构化知识自动挖掘

专知会员服务

32+阅读 · 2024年9月6日

大型语言模型的知识蒸馏综述：方法、评估与应用

大型语言模型的知识蒸馏综述：方法、评估与应用

专知会员服务

79+阅读 · 2024年7月4日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

【WWW2023教程】将网络规模的文本转化为知识:将预训练表示转化为文本挖掘应用

【WWW2023教程】将网络规模的文本转化为知识:将预训练表示转化为文本挖掘应用

专知会员服务

29+阅读 · 2023年5月17日

【谷歌Kelvin Guu】语言模型可以是知识库吗？，46页ppt

专知会员服务

27+阅读 · 2021年10月12日

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

专知会员服务

68+阅读 · 2020年4月16日

【AAAI2020接受论文】利用图卷积网络将知识注入文本任务，Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

【AAAI2020接受论文】利用图卷积网络将知识注入文本任务，Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

专知会员服务

45+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

相关资讯

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

相关论文

SynSQL: Synthesizing Relational Databases for Robust Evaluation of Text-to-SQL Systems

Arxiv

0+阅读 · 4月29日

A Demonstration of SQLyzr: A Platform for Fine-Grained Text-to-SQL Evaluation and Analysis

Arxiv

0+阅读 · 4月28日

SQLyzr: A Comprehensive Benchmark and Evaluation Platform for Text-to-SQL

Arxiv

0+阅读 · 4月27日

DeepEye-SQL: A Software-Engineering-Inspired Text-to-SQL Framework

Arxiv

0+阅读 · 4月3日

ReViSQL: Achieving Human-Level Text-to-SQL

Arxiv

0+阅读 · 3月30日

ReViSQL: Achieving Human-Level Text-to-SQL

Arxiv

0+阅读 · 3月20日

TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

Arxiv

0+阅读 · 3月17日

Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

Arxiv

0+阅读 · 3月1日

Knowledge Distillation with Structured Chain-of-Thought for Text-to-SQL

Arxiv

0+阅读 · 2月25日

SCoTER: Structured Chain-of-Thought Transfer for Enhanced Recommendation

Arxiv

0+阅读 · 2月25日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员