Lakehouses are now the default substrate for analytics and AI, but they remain fragile under concurrent, untrusted change: schema mismatches often surface only at runtime, development and production easily diverge, and multi-table pipelines can expose partial results after failure. We present Bauplan, a code-first lakehouse that aims to eliminate a broad class of these failures by construction. Bauplan builds on a storage substrate that already provides atomic single-table snapshot evolution, and adds three pipeline-level correctness mechanisms: typed table contracts to make transformation boundaries checkable, Git-like data versioning to support reproducible collaboration and review, and transactional runs that guarantee atomic publication of an entire pipeline execution. We describe the system design, show how these abstractions fit together into a unified programming model for humans and agents, and report early results from a lightweight Alloy model that both validates key intuitions and exposes subtle counterexamples around transactional branch visibility. Our experience suggests that correctness in the lakehouse is best addressed not by patching failures after the fact, but by restricting the programming model so that many illegal states become unrepresentable.


翻译:湖仓已成为分析与人工智能的默认基础设施,但在并发且不可信的变更下仍显脆弱:模式不匹配常在运行时才暴露,开发与生产环境极易偏离,多表流水线在故障后可能暴露部分结果。本文提出Bauplan,一种代码优先的湖仓系统,旨在通过构造方式消除广泛类别的此类故障。Bauplan基于已提供原子化单表快照演进的存储底层,并新增三项流水线级正确性机制:类型化表契约使转换边界可校验,类Git数据版本控制支持可复现的协作与评审,以及保证整个流水线执行原子化发布的事务性运行。我们阐述系统设计,展示这些抽象如何整合为面向人类与智能体的统一编程模型,并报告基于轻量级Alloy模型的初步结果——该模型既验证了关键设计直觉,也揭示了事务性分支可见性相关的微妙反例。我们的实践表明,湖仓的正确性不应通过事后修补故障来实现,而应通过限制编程模型使大量非法状态无法被表达。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
腾讯大数据实时湖仓智能优化实践
专知会员服务
20+阅读 · 2024年9月19日
数据湖核心能力解析
专知会员服务
33+阅读 · 2024年6月12日
实时数据湖在字节跳动的实践
专知会员服务
30+阅读 · 2022年5月28日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
43+阅读 · 2022年4月15日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
大数据数仓学习路线
DataFunTalk
11+阅读 · 2020年8月5日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
Github项目推荐 | PyTorch 中文手册 (pytorch handbook)
基于python的开源量化交易,量化投资架构
运维帮
15+阅读 · 2018年7月5日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
5+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
12+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
2+阅读 · 4月12日
相关资讯
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
大数据数仓学习路线
DataFunTalk
11+阅读 · 2020年8月5日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
Github项目推荐 | PyTorch 中文手册 (pytorch handbook)
基于python的开源量化交易,量化投资架构
运维帮
15+阅读 · 2018年7月5日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员