Bespoke OLAP: Synthesizing Workload-Specific One-size-fits-one Database Engines - 专知论文

会员服务 ·

0

引擎 · 负载 · 合成 · 数据库 · 系统 ·

Bespoke OLAP: Synthesizing Workload-Specific One-size-fits-one Database Engines

翻译：定制化OLAP：合成面向特定工作负载的“量体裁衣”式数据库引擎

Johannes Wehrstein,Timo Eckmann,Matthias Jasny,Carsten Binnig

Modern OLAP engines are designed to support arbitrary analytical workloads, but this generality incurs structural overhead, including runtime schema interpretation, indirection layers, and abstraction boundaries, even in highly optimized systems. An engine specialized to a fixed workload can eliminate these costs and exploit workload-specific data structures and execution algorithms for substantially higher performance. Historically, constructing such bespoke engines has been economically impractical due to the high manual engineering effort. Recent advances in LLM-based code synthesis challenge this tradeoff by enabling automated system generation. However, naively prompting an LLM to produce a database engine does not yield a correct or efficient design, as effective synthesis requires systematic performance feedback, structured refinement, and careful management of deep architectural interdependencies. We present Bespoke OLAP, a fully autonomous synthesis pipeline for constructing high-performance database engines tightly tailored to a given workload. Our approach integrates iterative performance evaluation and automated validation to guide synthesis from storage to query execution. We demonstrate that Bespoke OLAP can generate a workload-specific engine from scratch within minutes to hours, achieving order-of-magnitude speedups over modern general-purpose systems such as DuckDB.

翻译：现代OLAP引擎旨在支持任意的分析型工作负载，但这种通用性会带来结构性开销，包括运行时模式解析、间接层和抽象边界，即使在高度优化的系统中也不例外。为固定工作负载专门设计的引擎能够消除这些成本，并利用面向特定工作负载的数据结构和执行算法，从而获得显著更高的性能。历史上，由于高昂的人工工程成本，构建此类定制化引擎在经济上并不现实。近期基于LLM的代码合成技术通过实现自动化系统生成，对这一权衡关系提出了挑战。然而，简单地提示LLM生成数据库引擎并不能产生正确或高效的设计，因为有效的合成需要系统化的性能反馈、结构化的优化以及对深层架构相互依赖关系的精细管理。本文提出Bespoke OLAP——一个完全自主的合成流水线，用于构建与给定工作负载紧密匹配的高性能数据库引擎。我们的方法集成了迭代性能评估与自动化验证，以指导从存储到查询执行的整个合成过程。实验证明，Bespoke OLAP能够在数分钟至数小时内从零开始生成面向特定工作负载的引擎，相较于DuckDB等现代通用系统实现了数量级的性能提升。

0

相关内容

中文版 | 美陆军信息收集操作员工具（OPTIC）：以安全、效率与创新重塑任务规划

中文版 | 美陆军信息收集操作员工具（OPTIC）：以安全、效率与创新重塑任务规划

专知会员服务

16+阅读 · 2025年5月16日

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

专知会员服务

38+阅读 · 2024年2月6日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

【伯克利博士论文】优化与机器学习中的结构驱动算法设计，420页pdf

【伯克利博士论文】优化与机器学习中的结构驱动算法设计，420页pdf

专知会员服务

45+阅读 · 2023年5月10日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知会员服务

101+阅读 · 2022年11月24日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

佐治亚理工2020《数据库系统实现》课程，不可错过！

佐治亚理工2020《数据库系统实现》课程，不可错过！

专知会员服务

24+阅读 · 2020年10月14日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

专知会员服务

23+阅读 · 2019年11月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

安利一个开源的好工具Label Studio, 闭环数据标注和模型训练

安利一个开源的好工具Label Studio, 闭环数据标注和模型训练

AINLP

27+阅读 · 2020年12月30日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

OLAP引擎这么多，为什么苏宁选择用Druid？

OLAP引擎这么多，为什么苏宁选择用Druid？

51CTO博客

12+阅读 · 2018年12月20日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

设计和实现一款轻量级的爬虫框架

设计和实现一款轻量级的爬虫框架

架构文摘

13+阅读 · 2018年1月17日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

基于大数据的运载火箭总装系统智能优化调度理论与方法

国家自然科学基金

0+阅读 · 2015年12月31日

分布式工业自动化系统可重构混合计算模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

全局性气动外形优化中的流场加速求解新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性系统输入状态稳定性分析与设计的不定向量Lyapunov函数导数方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

Unfair by design: eBPF-based scheduling of mixed database workloads

Arxiv

0+阅读 · 5月4日

DECOFFEE: Decentralized Reinforcement Learning for Time-critical Workload Offloading and Energy Efficiency across the Computing Continuum

Arxiv

0+阅读 · 4月27日

HIRE: A Hybrid Learned Index for Robust and Efficient Performance under Mixed Workloads

Arxiv

0+阅读 · 4月24日

HIRE: A Hybrid Learned Index for Robust and Efficient Performance under Mixed Workloads

Arxiv

0+阅读 · 4月22日

DataCenterGym: A Physics-Grounded Simulator for Multi-Objective Data Center Scheduling

Arxiv

0+阅读 · 4月17日

PRISM: Dynamic Primitive-Based Forecasting for Large-Scale GPU Cluster Workloads

Arxiv

0+阅读 · 3月26日

Enhancing OLAP Resilience at LinkedIn

Arxiv

0+阅读 · 3月7日

OSGym: Scalable Distributed Data Engine for Generalizable Computer Agents

Arxiv

0+阅读 · 3月4日

Semantic Caching for OLAP via LLM-Based Query Canonicalization (Extended Version)

Arxiv

0+阅读 · 2月23日

CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

9+阅读 · 今天10:44

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

5+阅读 · 今天10:12

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

6+阅读 · 今天9:56

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

5+阅读 · 今天10:09

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

5+阅读 · 今天9:53

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

4+阅读 · 今天9:51

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

4+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

4+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

9+阅读 · 6月14日

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

12+阅读 · 6月14日

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

13+阅读 · 6月13日

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

专知会员服务

11+阅读 · 6月13日

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

2+阅读 · 6月13日

智能体时间序列系统全景综述：架构、可靠性与研究前沿

智能体时间序列系统全景综述：架构、可靠性与研究前沿

专知会员服务

11+阅读 · 6月13日

相关VIP内容

中文版 | 美陆军信息收集操作员工具（OPTIC）：以安全、效率与创新重塑任务规划

中文版 | 美陆军信息收集操作员工具（OPTIC）：以安全、效率与创新重塑任务规划

专知会员服务

16+阅读 · 2025年5月16日

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

专知会员服务

38+阅读 · 2024年2月6日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

【伯克利博士论文】优化与机器学习中的结构驱动算法设计，420页pdf

【伯克利博士论文】优化与机器学习中的结构驱动算法设计，420页pdf

专知会员服务

45+阅读 · 2023年5月10日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知会员服务

101+阅读 · 2022年11月24日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

佐治亚理工2020《数据库系统实现》课程，不可错过！

佐治亚理工2020《数据库系统实现》课程，不可错过！

专知会员服务

24+阅读 · 2020年10月14日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

专知会员服务

23+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

消耗优势：美军的“精确规模化”概念

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

安利一个开源的好工具Label Studio, 闭环数据标注和模型训练

安利一个开源的好工具Label Studio, 闭环数据标注和模型训练

AINLP

27+阅读 · 2020年12月30日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

OLAP引擎这么多，为什么苏宁选择用Druid？

OLAP引擎这么多，为什么苏宁选择用Druid？

51CTO博客

12+阅读 · 2018年12月20日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

设计和实现一款轻量级的爬虫框架

设计和实现一款轻量级的爬虫框架

架构文摘

13+阅读 · 2018年1月17日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

相关论文

Unfair by design: eBPF-based scheduling of mixed database workloads

Arxiv

0+阅读 · 5月4日

DECOFFEE: Decentralized Reinforcement Learning for Time-critical Workload Offloading and Energy Efficiency across the Computing Continuum

Arxiv

0+阅读 · 4月27日

HIRE: A Hybrid Learned Index for Robust and Efficient Performance under Mixed Workloads

Arxiv

0+阅读 · 4月24日

HIRE: A Hybrid Learned Index for Robust and Efficient Performance under Mixed Workloads

Arxiv

0+阅读 · 4月22日

DataCenterGym: A Physics-Grounded Simulator for Multi-Objective Data Center Scheduling

Arxiv

0+阅读 · 4月17日

PRISM: Dynamic Primitive-Based Forecasting for Large-Scale GPU Cluster Workloads

Arxiv

0+阅读 · 3月26日

Enhancing OLAP Resilience at LinkedIn

Arxiv

0+阅读 · 3月7日

OSGym: Scalable Distributed Data Engine for Generalizable Computer Agents

Arxiv

0+阅读 · 3月4日

Semantic Caching for OLAP via LLM-Based Query Canonicalization (Extended Version)

Arxiv

0+阅读 · 2月23日

CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications

Arxiv

0+阅读 · 2月22日

相关基金

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

基于大数据的运载火箭总装系统智能优化调度理论与方法

国家自然科学基金

0+阅读 · 2015年12月31日

分布式工业自动化系统可重构混合计算模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

全局性气动外形优化中的流场加速求解新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性系统输入状态稳定性分析与设计的不定向量Lyapunov函数导数方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员