Modern OLAP engines are designed to support arbitrary analytical workloads, but this generality incurs structural overhead, including runtime schema interpretation, indirection layers, and abstraction boundaries, even in highly optimized systems. An engine specialized to a fixed workload can eliminate these costs and exploit workload-specific data structures and execution algorithms for substantially higher performance. Historically, constructing such bespoke engines has been economically impractical due to the high manual engineering effort. Recent advances in LLM-based code synthesis challenge this tradeoff by enabling automated system generation. However, naively prompting an LLM to produce a database engine does not yield a correct or efficient design, as effective synthesis requires systematic performance feedback, structured refinement, and careful management of deep architectural interdependencies. We present Bespoke OLAP, a fully autonomous synthesis pipeline for constructing high-performance database engines tightly tailored to a given workload. Our approach integrates iterative performance evaluation and automated validation to guide synthesis from storage to query execution. We demonstrate that Bespoke OLAP can generate a workload-specific engine from scratch within minutes to hours, achieving order-of-magnitude speedups over modern general-purpose systems such as DuckDB.


翻译:现代OLAP引擎旨在支持任意的分析型工作负载,但这种通用性会带来结构性开销,包括运行时模式解析、间接层和抽象边界,即使在高度优化的系统中也不例外。为固定工作负载专门设计的引擎能够消除这些成本,并利用面向特定工作负载的数据结构和执行算法,从而获得显著更高的性能。历史上,由于高昂的人工工程成本,构建此类定制化引擎在经济上并不现实。近期基于LLM的代码合成技术通过实现自动化系统生成,对这一权衡关系提出了挑战。然而,简单地提示LLM生成数据库引擎并不能产生正确或高效的设计,因为有效的合成需要系统化的性能反馈、结构化的优化以及对深层架构相互依赖关系的精细管理。本文提出Bespoke OLAP——一个完全自主的合成流水线,用于构建与给定工作负载紧密匹配的高性能数据库引擎。我们的方法集成了迭代性能评估与自动化验证,以指导从存储到查询执行的整个合成过程。实验证明,Bespoke OLAP能够在数分钟至数小时内从零开始生成面向特定工作负载的引擎,相较于DuckDB等现代通用系统实现了数量级的性能提升。

0
下载
关闭预览

相关内容

佐治亚理工2020《数据库系统实现》课程,不可错过!
专知会员服务
24+阅读 · 2020年10月14日
一个牛逼的 Python 调试工具
机器学习算法与Python学习
15+阅读 · 2019年4月30日
OLAP引擎这么多,为什么苏宁选择用Druid?
51CTO博客
12+阅读 · 2018年12月20日
设计和实现一款轻量级的爬虫框架
架构文摘
13+阅读 · 2018年1月17日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月7日
VIP会员
最新内容
美国当前高超音速导弹发展概述
专知会员服务
0+阅读 · 58分钟前
《高超音速武器:一项再度兴起的技术》120页slides
无人机蜂群建模与仿真方法
专知会员服务
1+阅读 · 今天14:08
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 今天13:42
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 今天13:46
全球高超音速武器最新发展趋势
专知会员服务
1+阅读 · 今天13:17
相关VIP内容
佐治亚理工2020《数据库系统实现》课程,不可错过!
专知会员服务
24+阅读 · 2020年10月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员