Automated AI workflows increasingly rely on natural-language reasoning over heterogeneous data, but lack a practical way to execute it through optimized semantic data systems. Recent semantic operator systems, such as Palimpzest and LOTUS, expose declarative operators for filtering, joining, mapping, and aggregating over tables, text, and images using natural-language predicates. However, these systems require users to manually choose operators, order them, write predicates, and adapt the pipeline to backend-specific APIs. This is difficult for non-experts, brittle across backends, and infeasible for automated workflows where queries and data vary at runtime. We present NL2Pipe, a middleware system that compiles natural-language questions into executable semantic operator pipelines, treating this as a three-phase compilation problem. First, a Query-Data Linker grounds question entities against the actual data and discovers implicit bridge entities needed to connect tables, text, and images. Second, a Semantic Planner produces a backend-agnostic action plan of semantic operators and natural-language predicates. Third, a Code Generator translates the plan into executable code for a target backend using an auto-generated reference document capturing operator signatures, example pipelines, and backend constraints. This separates data-aware reasoning from backend-specific code generation, letting the same planning logic support multiple backends. Evaluation shows NL2Pipe substantially outperforms baselines on complex cross-source workloads (e.g., up to 60% higher F1) while maintaining bounded cost and competitive latency. This demonstrates that automatic compilation from natural language to semantic operator pipelines is both practical and effective for bringing semantic analytics to non-expert users and automated AI workflows.


翻译:自动化AI工作流日益依赖对异构数据进行自然语言推理,但缺乏通过优化的语义数据系统执行此类推理的实用方法。近期出现的语义算子系统(如Palimpzest和LOTUS)通过自然语言谓词,为表格、文本和图像的过滤、连接、映射和聚合操作提供了声明式算子。然而,这些系统要求用户手动选择算子、编排顺序、编写谓词,并根据后端特定API调整流水线。这对非专家用户难度高、跨后端适配易脆弱,且在查询与数据运行时变化的自动化工作流中不可行。本文提出NL2Pipe——一种将自然语言问题编译为可执行语义算子流水线的中间件系统,将其视为三阶段编译问题。首先,查询-数据链接器将问题实体锚定至实际数据,并发现连接表格、文本和图像所需的隐式桥接实体。其次,语义规划器生成由语义算子和自然语言谓词构成的、与后端无关的动作计划。最后,代码生成器利用自动生成的、包含算子签名、示例流水线及后端约束的参考文档,将计划转化为目标后端的可执行代码。该架构将数据感知推理与后端特定代码生成分离,使同一规划逻辑支持多个后端。评估表明,NL2Pipe在复杂跨源工作负载上的性能显著优于基线(例如F1值最高提升60%),同时保持可控成本与竞争性延迟。这证明从自然语言到语义算子流水线的自动编译切实可行且高效,能够将语义分析能力带给非专家用户与自动化AI工作流。

0
下载
关闭预览

相关内容

【ACL2023教程】自然语言的复杂推理,240多页ppt
专知会员服务
56+阅读 · 2023年7月13日
专知会员服务
201+阅读 · 2020年3月6日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2024年5月21日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员