NL2SQL systems aim to address the growing need for natural language interaction with data. However, real-world information rarely maps to a single SQL query because (1) users express queries iteratively (2) questions often span multiple data sources beyond the closed-world assumption of a single database, and (3) queries frequently rely on commonsense or external knowledge. Consequently, satisfying realistic data needs require integrating heterogeneous sources, modalities, and contextual data. In this paper, we present Blue's Data Intelligence Layer (DIL) designed to support multi-source, multi-modal, and data-centric applications. Blue is a compound AI system that orchestrates agents and data for enterprise settings. DIL serves as the data intelligence layer for agentic data processing, to bridge the semantic gap between user intent and available information by unifying structured enterprise data, world knowledge accessible through LLMs, and personal context obtained through interaction. At the core of DIL is a data registry that stores metadata for diverse data sources and modalities to enable both native and natural language queries. DIL treats LLMs, the Web, and the User as source 'databases', each with their own query interface, elevating them to first-class data sources. DIL relies on data planners to transform user queries into executable query plans. These plans are declarative abstractions that unify relational operators with other operators spanning multiple modalities. DIL planners support decomposition of complex requests into subqueries, retrieval from diverse sources, and finally reasoning and integration to produce final results. We demonstrate DIL through two interactive scenarios in which user queries dynamically trigger multi-source retrieval, cross-modal reasoning, and result synthesis, illustrating how compound AI systems can move beyond single database NL2SQL.


翻译:NL2SQL系统旨在满足日益增长的自然语言与数据交互需求。然而现实世界的信息很少能映射为单一SQL查询,原因在于:(1)用户以迭代方式表达查询;(2)问题常涉及多个数据源,突破单一数据库的封闭世界假设;(3)查询频繁依赖常识或外部知识。因此,满足现实数据需求需要整合异构数据源、模态与上下文数据。本文提出Blue数据智能层(DIL),旨在支持多源、多模态与数据驱动应用。Blue是一个复合AI系统,可为企业场景编排智能体与数据。DIL作为智能体数据处理的数据智能层,通过统一结构化企业数据、通过大语言模型可获取的世界知识以及通过交互获取的个人上下文,弥合用户意图与可用信息之间的语义鸿沟。DIL核心是数据注册表,它存储多源多模态数据的元数据以支持原生查询与自然语言查询。DIL将大语言模型、网络和用户视为具备各自查询接口的源"数据库",将其提升为一级数据源。DIL依赖数据规划器将用户查询转化为可执行查询计划。这些计划是声明式抽象,统一了关系运算符与其他跨模态运算符。DIL规划器支持将复杂请求分解为子查询、从多源检索数据,最终通过推理与整合产生最终结果。我们通过两个交互场景演示了DIL,其中用户查询动态触发多源检索、跨模态推理与结果综合,展示了复合AI系统如何突破单一数据库NL2SQL的局限。

0
下载
关闭预览

相关内容

【博士论文】优化智能体工作流以提升信息获取效率
专知会员服务
19+阅读 · 2025年7月7日
专知会员服务
33+阅读 · 2021年9月27日
专知会员服务
47+阅读 · 2020年8月23日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
14+阅读 · 2019年5月9日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员