Lakehouses are the default cloud platform for analytics and AI, but they become unsafe when untrusted actors concurrently operate on production data: upstream-downstream mismatches surface only at runtime, and multi-table pipelines can leak partial effects. Inspired by software engineering, we design Bauplan, a code-first lakehouse that aims to make (most) illegal states unrepresentable using familiar abstractions. Bauplan acts along three axes: typed table contracts to make pipeline boundaries checkable, Git-like data versioning for review and reproducibility, and transactional runs that guarantee pipeline-level atomicity. We report early results from a lightweight formal transaction model and discuss future work motivated by counterexamples.


翻译:湖仓已成为分析与人工智能的默认云平台,但当非受信参与方并发操作生产数据时,其安全性将受到威胁:上下游数据不匹配仅在运行时显现,多表流水线可能泄露部分处理结果。受软件工程思想启发,我们设计了Bauplan——一个代码优先的湖仓系统,旨在通过熟悉的抽象概念使(大多数)非法状态无法被表征。Bauplan沿三个维度展开:通过类型化表契约实现流水线边界可校验,采用类Git数据版本控制支持审查与复现,以及通过事务性运行保障流水线级原子性。我们基于轻量级形式化事务模型的初步结果进行报告,并探讨由反例驱动的未来研究方向。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
腾讯大数据实时湖仓智能优化实践
专知会员服务
20+阅读 · 2024年9月19日
数据湖核心能力解析
专知会员服务
33+阅读 · 2024年6月12日
实时数据湖在字节跳动的实践
专知会员服务
30+阅读 · 2022年5月28日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
43+阅读 · 2022年4月15日
专知会员服务
32+阅读 · 2020年5月20日
大数据数仓学习路线
DataFunTalk
11+阅读 · 2020年8月5日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
最佳实践:阿里巴巴数据中台
AliData
26+阅读 · 2019年7月26日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
Github项目推荐 | PyTorch 中文手册 (pytorch handbook)
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月27日
VIP会员
相关VIP内容
腾讯大数据实时湖仓智能优化实践
专知会员服务
20+阅读 · 2024年9月19日
数据湖核心能力解析
专知会员服务
33+阅读 · 2024年6月12日
实时数据湖在字节跳动的实践
专知会员服务
30+阅读 · 2022年5月28日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
43+阅读 · 2022年4月15日
专知会员服务
32+阅读 · 2020年5月20日
相关资讯
大数据数仓学习路线
DataFunTalk
11+阅读 · 2020年8月5日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
最佳实践:阿里巴巴数据中台
AliData
26+阅读 · 2019年7月26日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
Github项目推荐 | PyTorch 中文手册 (pytorch handbook)
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员