Gen-DBA: Generative Database Agents - 专知论文

会员服务 ·

0

数据库 · Gen · 数据库管理员（DBA） · ML · 学习模型 ·

Gen-DBA: Generative Database Agents

翻译：Gen-DBA：生成式数据库智能体

Yeasir Rayhan,Walid G. Aref

Leveraging Machine Learning to optimize database systems, referred to as Machine Learning for Databases (ML4DB, for short), dates back to the early 1990s, spanning indexing techniques, selectivity estimation, and query optimization. However, the idea has gained mainstream traction following the introduction of learned indexes in 2018, triggering a surge of research spanning learned indexes and cardinality estimators to learned query optimizers, storage layout design, resource management, and database tuning. The current ML4DB optimization landscape is dominated by narrow specialist ML models that are small and are trained on limited training data. Each specialist ML model targets a single database learning task on a fixed database engine, hardware platform, query workload, and optimization objective. As a result, they fall short in real-world settings, where these factors can vary significantly and evolve over time. This leads to an exponential number of ML models with limited portability and generalization capability, thus limiting the utility of existing ML4DB approaches. We address this limitation with Gen-DBA, a single general-purpose foundation model for optimizing databases with agentic capabilities. This paper presents the vision for Gen-DBA, provides a sketch design of how to realize it, and highlights several research challenges that need to be addressed to fully realize Gen-DBA.

翻译：利用机器学习优化数据库系统，即机器学习赋能数据库（简称ML4DB），可追溯至20世纪90年代初，其应用涵盖索引技术、选择性估计与查询优化等领域。然而，该理念在2018年学习索引技术提出后才获得主流关注，并引发研究热潮，其范围从学习索引与基数估计器扩展至学习型查询优化器、存储布局设计、资源管理与数据库调优。当前ML4DB优化领域主要由小型专用机器学习模型主导，这些模型基于有限训练数据训练而成。每个专用机器学习模型仅针对固定数据库引擎、硬件平台、查询负载及优化目标下的单一数据库学习任务。因此，在实际应用场景中——这些因素往往存在显著差异且随时间动态变化——此类模型表现欠佳。这导致机器学习模型数量呈指数级增长，且可移植性与泛化能力有限，从而制约了现有ML4DB方法的实用性。我们通过Gen-DBA应对这一局限，该模型是具备智能体能力的通用基础模型，可用于数据库优化。本文阐述Gen-DBA的愿景框架，勾勒其实现路径的设计概要，并指出实现Gen-DBA所需突破的若干研究挑战。

0

相关内容

数据库

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。

AI原生数据库发展趋势白皮书

AI原生数据库发展趋势白皮书

专知会员服务

18+阅读 · 5月16日

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

专知会员服务

80+阅读 · 2025年2月14日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

【新书】利用先进的生成式 AI 技术（如 RAG），释放数据的潜力，推动创新并获取战略优势

【新书】利用先进的生成式 AI 技术（如 RAG），释放数据的潜力，推动创新并获取战略优势

专知会员服务

56+阅读 · 2024年10月4日

智能数据库学习型索引研究综述

智能数据库学习型索引研究综述

专知会员服务

23+阅读 · 2023年1月14日

《通过数学演绎推理产生形式智能，并作为从数据模式中归纳推理产生知识的补充》2022最新论文，加拿大国防研究与发展部

《通过数学演绎推理产生形式智能，并作为从数据模式中归纳推理产生知识的补充》2022最新论文，加拿大国防研究与发展部

专知会员服务

29+阅读 · 2023年1月11日

博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF

博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF

专知会员服务

64+阅读 · 2022年4月29日

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

专知会员服务

29+阅读 · 2022年2月17日

【SIGMOD2021】数据库与人工智能交叉技术综述

【SIGMOD2021】数据库与人工智能交叉技术综述

专知会员服务

70+阅读 · 2021年7月14日

基于机器学习的数据库技术综述

基于机器学习的数据库技术综述

专知会员服务

55+阅读 · 2021年1月2日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

专知

33+阅读 · 2020年3月9日

十种深度学习推荐系统代码实现，持续更新中！！！

十种深度学习推荐系统代码实现，持续更新中！！！

专知

113+阅读 · 2019年4月25日

机器学习论文大全，涵盖深度学习、计算机视觉、分类、聚类、机器人学等

机器学习论文大全，涵盖深度学习、计算机视觉、分类、聚类、机器人学等

专知

17+阅读 · 2019年1月4日

孟小峰：机器学习与数据库技术融合

孟小峰：机器学习与数据库技术融合

计算机研究与发展

14+阅读 · 2018年9月6日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

关于数据挖掘，有几本书推荐给你......

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

Living Databases: A Unified Model for Continuous Schema Evolution, Versioning, and Transformations

Arxiv

0+阅读 · 5月1日

BranchBench: Aligning Database Branching with Agentic Demands

Arxiv

0+阅读 · 4月19日

RELOAD: A Robust and Efficient Learned Query Optimizer for Database Systems

Arxiv

0+阅读 · 4月16日

AI-Driven Research for Databases

Arxiv

0+阅读 · 4月8日

Cortex AISQL: A Production SQL Engine for Unstructured Data

Arxiv

0+阅读 · 4月7日

DBAutoDoc: Automated Discovery and Documentation of Undocumented Database Schemas via Statistical Analysis and Iterative LLM Refinement

Arxiv

0+阅读 · 3月24日

AgenticScholar: Agentic Data Management with Pipeline Orchestration for Scholarly Corpora

Arxiv

0+阅读 · 3月14日

AutoDataset: A Lightweight System for Continuous Dataset Discovery and Search

Arxiv

0+阅读 · 3月7日

Scaling Generalist Data-Analytic Agents

Arxiv

0+阅读 · 2月27日

CACTUSDB: Unlock Co-Optimization Opportunities for SQL and AI/ML Inferences

Arxiv

0+阅读 · 2月26日

VIP会员

文章信息

相关主题

数据库管理员（DBA）

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

5+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

AI原生数据库发展趋势白皮书

AI原生数据库发展趋势白皮书

专知会员服务

18+阅读 · 5月16日

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

专知会员服务

80+阅读 · 2025年2月14日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

【新书】利用先进的生成式 AI 技术（如 RAG），释放数据的潜力，推动创新并获取战略优势

【新书】利用先进的生成式 AI 技术（如 RAG），释放数据的潜力，推动创新并获取战略优势

专知会员服务

56+阅读 · 2024年10月4日

智能数据库学习型索引研究综述

智能数据库学习型索引研究综述

专知会员服务

23+阅读 · 2023年1月14日

《通过数学演绎推理产生形式智能，并作为从数据模式中归纳推理产生知识的补充》2022最新论文，加拿大国防研究与发展部

《通过数学演绎推理产生形式智能，并作为从数据模式中归纳推理产生知识的补充》2022最新论文，加拿大国防研究与发展部

专知会员服务

29+阅读 · 2023年1月11日

博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF

博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF

专知会员服务

64+阅读 · 2022年4月29日

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

专知会员服务

29+阅读 · 2022年2月17日

【SIGMOD2021】数据库与人工智能交叉技术综述

【SIGMOD2021】数据库与人工智能交叉技术综述

专知会员服务

70+阅读 · 2021年7月14日

基于机器学习的数据库技术综述

基于机器学习的数据库技术综述

专知会员服务

55+阅读 · 2021年1月2日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

专知

33+阅读 · 2020年3月9日

十种深度学习推荐系统代码实现，持续更新中！！！

十种深度学习推荐系统代码实现，持续更新中！！！

专知

113+阅读 · 2019年4月25日

机器学习论文大全，涵盖深度学习、计算机视觉、分类、聚类、机器人学等

机器学习论文大全，涵盖深度学习、计算机视觉、分类、聚类、机器人学等

专知

17+阅读 · 2019年1月4日

孟小峰：机器学习与数据库技术融合

孟小峰：机器学习与数据库技术融合

计算机研究与发展

14+阅读 · 2018年9月6日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

关于数据挖掘，有几本书推荐给你......

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

相关论文

Living Databases: A Unified Model for Continuous Schema Evolution, Versioning, and Transformations

Arxiv

0+阅读 · 5月1日

BranchBench: Aligning Database Branching with Agentic Demands

Arxiv

0+阅读 · 4月19日

RELOAD: A Robust and Efficient Learned Query Optimizer for Database Systems

Arxiv

0+阅读 · 4月16日

AI-Driven Research for Databases

Arxiv

0+阅读 · 4月8日

Cortex AISQL: A Production SQL Engine for Unstructured Data

Arxiv

0+阅读 · 4月7日

DBAutoDoc: Automated Discovery and Documentation of Undocumented Database Schemas via Statistical Analysis and Iterative LLM Refinement

Arxiv

0+阅读 · 3月24日

AgenticScholar: Agentic Data Management with Pipeline Orchestration for Scholarly Corpora

Arxiv

0+阅读 · 3月14日

AutoDataset: A Lightweight System for Continuous Dataset Discovery and Search

Arxiv

0+阅读 · 3月7日

Scaling Generalist Data-Analytic Agents

Arxiv

0+阅读 · 2月27日

CACTUSDB: Unlock Co-Optimization Opportunities for SQL and AI/ML Inferences

Arxiv

0+阅读 · 2月26日

相关基金

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员