While recent advances in large language models have significantly improved Text-to-SQL and table question answering systems, most existing approaches assume that all query-relevant information is explicitly represented in structured schemas. In practice, many enterprise databases contain hybrid schemas where structured attributes coexist with free-form textual fields, requiring systems to reason over both types of information. To address this challenge, we introduce OmniTQA, a cost-aware hybrid query processing framework that operates over both structured and semi-structured data. OmniTQA treats semantic reasoning as a first-class query operator, seamlessly integrating LLM-based semantic operations with classical relational operators into an executable directed acyclic graph. To manage the high latency and cost of LLM inference, it extends classical query optimization with data-aware planning, combining atomic query decomposition and operator reordering to minimize semantic workload. The framework also features a dual-engine execution architecture that dynamically routes tasks between a relational database and an LLM module, using operator-aware batching to scale efficiently. Extensive experiments across a diverse suite of structured and semi-structured table question answering benchmarks demonstrate that OmniTQA consistently outperforms existing symbolic, semantic, and hybrid baselines in both accuracy and cost efficiency. These gains are particularly pronounced for complex queries, large tables and multi-relation schemas.


翻译:尽管大型语言模型的最新进展显著提升了文本到SQL及表格问答系统的性能,但现有方法大多假设所有与查询相关的信息均显式表达于结构化模式中。然而在实际应用中,许多企业数据库包含结构化属性与自由文本字段共存的混合模式,要求系统能同时推理两类信息。为应对这一挑战,我们提出OmniTQA——一种面向结构化与半结构化数据的成本感知混合查询处理框架。该框架将语义推理视为一等查询算子,将基于LLM的语义操作与经典关系算子无缝集成为可执行的有向无环图。为管理LLM推理的高延迟与成本,OmniTQA通过数据感知规划扩展经典查询优化,结合原子查询分解与算子重排序以最小化语义计算负载。该框架还采用双引擎执行架构,通过算子感知批处理在关系数据库与LLM模块间动态路由任务,实现高效扩展。在涵盖结构化与半结构化表格问答基准的多样化实验套件中,OmniTQA在准确性与成本效率上持续优于现有符号化、语义及混合基线方法,尤其在复杂查询、大规模表格及多关系模式下表现显著更优。

0
下载
关闭预览

相关内容

【博士论文】半结构化表格数据上的信息检索
专知会员服务
24+阅读 · 2025年9月7日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
智能数据库学习型索引研究综述
专知会员服务
23+阅读 · 2023年1月14日
推荐系统产品与算法概述 | 深度
AI100
11+阅读 · 2019年6月13日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月23日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【博士论文】半结构化表格数据上的信息检索
专知会员服务
24+阅读 · 2025年9月7日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
智能数据库学习型索引研究综述
专知会员服务
23+阅读 · 2023年1月14日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员