Executable SQL generation is typically studied in text-to-SQL settings, where tables are provided as fully linearized textual schemas and contents. While effective, this formulation assumes access to structured text and incurs substantial token overhead, which is misaligned with many real-world scenarios where tables appear as visual artifacts in documents or webpages. We investigate whether compact optical representations can serve as an efficient interface for executable semantic parsing. We present OptiSQL, a vision-driven framework that generates executable SQL directly from table images and natural language questions using compact optical tokens. OptiSQL leverages an OCR-oriented visual encoder to compress table structure and content into a small set of optical tokens and fine-tunes a pretrained decoder for SQL generation while freezing the encoder to isolate representation sufficiency. Experiments on a visualized version of Spider 2.0-Snow show that OptiSQL retains strong execution accuracy while reducing table input tokens by an order of magnitude. Robustness analyses further demonstrate that optical tokens preserve essential structural information under visual perturbations.


翻译:可执行SQL生成通常在文本到SQL的设置中进行研究,其中表格以完全线性化的文本模式和内容形式提供。虽然有效,但这种表述假设可以访问结构化文本,并会产生大量的标记开销,这与许多现实场景不符,在这些场景中,表格以文档或网页中的视觉形式出现。我们研究紧凑的光学表示是否可以作为可执行语义解析的高效接口。我们提出了OptiSQL,这是一个视觉驱动的框架,它使用紧凑的光学标记直接从表格图像和自然语言问题生成可执行SQL。OptiSQL利用面向OCR的视觉编码器将表格结构和内容压缩为一小组光学标记,并微调预训练的解码器以生成SQL,同时冻结编码器以隔离表示的充分性。在Spider 2.0-Snow的可视化版本上的实验表明,OptiSQL在保持强大执行准确性的同时,将表格输入标记减少了一个数量级。鲁棒性分析进一步证明,光学标记在视觉扰动下保留了必要的结构信息。

0
下载
关闭预览

相关内容

SQL 全名是结构化查询语言,是用于数据库中的标准数据查询语言,IBM 公司最早使用在其开发的数据库系统中。
「基于深度学习的 SQL 生成」2022研究综述
专知会员服务
28+阅读 · 2022年8月12日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
基于MySQL Binlog的Elasticsearch数据同步实践
DBAplus社群
15+阅读 · 2019年9月3日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
基于MySQL Binlog的Elasticsearch数据同步实践
DBAplus社群
15+阅读 · 2019年9月3日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员