Building a Correct-by-Design Lakehouse. Data Contracts, Versioning, and Transactional Pipelines for Humans and Agents - 专知论文

会员服务 ·

0

设计 · 构建 · 系统 · 原子 · 编程 ·

Building a Correct-by-Design Lakehouse. Data Contracts, Versioning, and Transactional Pipelines for Humans and Agents

翻译：构建一个设计即正确的湖仓：面向人类与智能体的数据契约、版本控制与事务性流水线

Weiming Sheng,Jinlang Wang,Manuel Barros,Aldrin Montana,Jacopo Tagliabue,Luca Bigon

from arxiv, Submission pre-print, data conference

Lakehouses are now the default substrate for analytics and AI, but they remain fragile under concurrent, untrusted change: schema mismatches often surface only at runtime, development and production easily diverge, and multi-table pipelines can expose partial results after failure. We present Bauplan, a code-first lakehouse that aims to eliminate a broad class of these failures by construction. Bauplan builds on a storage substrate that already provides atomic single-table snapshot evolution, and adds three pipeline-level correctness mechanisms: typed table contracts to make transformation boundaries checkable, Git-like data versioning to support reproducible collaboration and review, and transactional runs that guarantee atomic publication of an entire pipeline execution. We describe the system design, show how these abstractions fit together into a unified programming model for humans and agents, and report early results from a lightweight Alloy model that both validates key intuitions and exposes subtle counterexamples around transactional branch visibility. Our experience suggests that correctness in the lakehouse is best addressed not by patching failures after the fact, but by restricting the programming model so that many illegal states become unrepresentable.

翻译：湖仓已成为分析与人工智能的默认基础设施，但在并发且不可信的变更下仍显脆弱：模式不匹配常在运行时才暴露，开发与生产环境极易偏离，多表流水线在故障后可能暴露部分结果。本文提出Bauplan，一种代码优先的湖仓系统，旨在通过构造方式消除广泛类别的此类故障。Bauplan基于已提供原子化单表快照演进的存储底层，并新增三项流水线级正确性机制：类型化表契约使转换边界可校验，类Git数据版本控制支持可复现的协作与评审，以及保证整个流水线执行原子化发布的事务性运行。我们阐述系统设计，展示这些抽象如何整合为面向人类与智能体的统一编程模型，并报告基于轻量级Alloy模型的初步结果——该模型既验证了关键设计直觉，也揭示了事务性分支可见性相关的微妙反例。我们的实践表明，湖仓的正确性不应通过事后修补故障来实现，而应通过限制编程模型使大量非法状态无法被表达。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

专知会员服务

50+阅读 · 2025年2月24日

腾讯大数据实时湖仓智能优化实践

腾讯大数据实时湖仓智能优化实践

专知会员服务

20+阅读 · 2024年9月19日

【新书】构建LLM应用：使用大型语言模型创建智能应用和代理，312页pdf

【新书】构建LLM应用：使用大型语言模型创建智能应用和代理，312页pdf

专知会员服务

100+阅读 · 2024年6月15日

数据湖核心能力解析

数据湖核心能力解析

专知会员服务

33+阅读 · 2024年6月12日

从基础到大型语言模型的自然语言处理精通：应用高级规则基技术到大型语言模型并使用Python解决现实世界的商业问题。

从基础到大型语言模型的自然语言处理精通：应用高级规则基技术到大型语言模型并使用Python解决现实世界的商业问题。

专知会员服务

38+阅读 · 2024年4月28日

《高效和公平的自主智能体分布式任务分配算法：基于机器学习的方法》2023最新报告

《高效和公平的自主智能体分布式任务分配算法：基于机器学习的方法》2023最新报告

专知会员服务

93+阅读 · 2023年4月25日

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

专知会员服务

56+阅读 · 2022年12月23日

实时数据湖在字节跳动的实践

实时数据湖在字节跳动的实践

专知会员服务

30+阅读 · 2022年5月28日

阿里云发布《中国云原生数据湖应用洞察白皮书》

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

专知会员服务

59+阅读 · 2020年6月17日

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

【开放书】MLOps导论：构建企业机器学习生产系统，185页pdf

【开放书】MLOps导论：构建企业机器学习生产系统，185页pdf

专知

51+阅读 · 2021年4月8日

大数据数仓学习路线

大数据数仓学习路线

DataFunTalk

11+阅读 · 2020年8月5日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

工行基于MySQL构建分布式架构的转型之路

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

【干货】电商数据中台如何构建？

【干货】电商数据中台如何构建？

AliData

11+阅读 · 2019年4月4日

Github项目推荐 | PyTorch 中文手册（pytorch handbook）

Github项目推荐 | PyTorch 中文手册（pytorch handbook）

AI研习社

50+阅读 · 2019年2月18日

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

产业智能官

12+阅读 · 2019年1月29日

基于python的开源量化交易，量化投资架构

基于python的开源量化交易，量化投资架构

运维帮

15+阅读 · 2018年7月5日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于物联网的准噶尔盆地南缘绿洲-荒漠交错带水资源调控研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向有源配电网的数据传输优化及智能过滤机制

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于语义推理的船舶舱室布置进化设计方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向流程工业的分布式状态估计与输出反馈控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

配送中心物流作业调度问题的建模与优化

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

电商环境下的仓库系统的运作研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于“数字链”系统的建筑设计与数控建造

国家自然科学基金

2+阅读 · 2014年12月31日

Research on the efficiency of data loading and storage in Data Lakehouse architectures for the formation of analytical data systems

Arxiv

0+阅读 · 4月23日

TensorHub: Rethinking AI Model Hub with Tensor-Centric Compression

Arxiv

0+阅读 · 4月18日

ByteHouse: ByteDance's Cloud-Native Data Warehouse for Real-Time Multimodal Data Analytics

Arxiv

0+阅读 · 3月25日

SWARM+: Scalable and Resilient Multi-Agent Consensus for Fully-Decentralized Data-Aware Workload Management

Arxiv

0+阅读 · 3月19日

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Arxiv

0+阅读 · 3月12日

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Arxiv

0+阅读 · 3月5日

Human-Certified Module Repositories for the AI Age

Arxiv

0+阅读 · 3月4日

GraphLake: A Purpose-Built Graph Compute Engine for Lakehouse

Arxiv

0+阅读 · 3月4日

The Science Data Lake: A Unified Open Infrastructure Integrating 293 Million Papers Across Eight Scholarly Sources with Embedding-Based Ontology Alignment

Arxiv

0+阅读 · 3月3日

Cooperation After the Algorithm: Designing Human-AI Coexistence Beyond the Illusion of Collaboration

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

4+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

3+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

8+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

15+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

7+阅读 · 6月3日

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

6+阅读 · 6月3日

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

4+阅读 · 6月3日

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

17+阅读 · 6月2日

《脑机接口：拓展神经前沿及其战略意涵》最新报告

《脑机接口：拓展神经前沿及其战略意涵》最新报告

专知会员服务

9+阅读 · 6月2日

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

专知会员服务

22+阅读 · 6月2日

《反无人机系统传感器融合》90页报告

《反无人机系统传感器融合》90页报告

专知会员服务

20+阅读 · 6月2日

运用人工智能与卫星通信驱散“战争迷雾”

运用人工智能与卫星通信驱散“战争迷雾”

专知会员服务

8+阅读 · 6月2日

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

专知会员服务

9+阅读 · 6月2日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

17+阅读 · 6月2日

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

9+阅读 · 6月1日

相关VIP内容

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

专知会员服务

50+阅读 · 2025年2月24日

腾讯大数据实时湖仓智能优化实践

腾讯大数据实时湖仓智能优化实践

专知会员服务

20+阅读 · 2024年9月19日

【新书】构建LLM应用：使用大型语言模型创建智能应用和代理，312页pdf

【新书】构建LLM应用：使用大型语言模型创建智能应用和代理，312页pdf

专知会员服务

100+阅读 · 2024年6月15日

数据湖核心能力解析

数据湖核心能力解析

专知会员服务

33+阅读 · 2024年6月12日

从基础到大型语言模型的自然语言处理精通：应用高级规则基技术到大型语言模型并使用Python解决现实世界的商业问题。

从基础到大型语言模型的自然语言处理精通：应用高级规则基技术到大型语言模型并使用Python解决现实世界的商业问题。

专知会员服务

38+阅读 · 2024年4月28日

《高效和公平的自主智能体分布式任务分配算法：基于机器学习的方法》2023最新报告

《高效和公平的自主智能体分布式任务分配算法：基于机器学习的方法》2023最新报告

专知会员服务

93+阅读 · 2023年4月25日

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

专知会员服务

56+阅读 · 2022年12月23日

实时数据湖在字节跳动的实践

实时数据湖在字节跳动的实践

专知会员服务

30+阅读 · 2022年5月28日

阿里云发布《中国云原生数据湖应用洞察白皮书》

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

专知会员服务

59+阅读 · 2020年6月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

【博士论文】抽象信息论与安全奖励学习的数学发展

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

相关资讯

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

【开放书】MLOps导论：构建企业机器学习生产系统，185页pdf

【开放书】MLOps导论：构建企业机器学习生产系统，185页pdf

专知

51+阅读 · 2021年4月8日

大数据数仓学习路线

大数据数仓学习路线

DataFunTalk

11+阅读 · 2020年8月5日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

工行基于MySQL构建分布式架构的转型之路

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

【干货】电商数据中台如何构建？

【干货】电商数据中台如何构建？

AliData

11+阅读 · 2019年4月4日

Github项目推荐 | PyTorch 中文手册（pytorch handbook）

Github项目推荐 | PyTorch 中文手册（pytorch handbook）

AI研习社

50+阅读 · 2019年2月18日

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

产业智能官

12+阅读 · 2019年1月29日

基于python的开源量化交易，量化投资架构

基于python的开源量化交易，量化投资架构

运维帮

15+阅读 · 2018年7月5日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

相关论文

Research on the efficiency of data loading and storage in Data Lakehouse architectures for the formation of analytical data systems

Arxiv

0+阅读 · 4月23日

TensorHub: Rethinking AI Model Hub with Tensor-Centric Compression

Arxiv

0+阅读 · 4月18日

ByteHouse: ByteDance's Cloud-Native Data Warehouse for Real-Time Multimodal Data Analytics

Arxiv

0+阅读 · 3月25日

SWARM+: Scalable and Resilient Multi-Agent Consensus for Fully-Decentralized Data-Aware Workload Management

Arxiv

0+阅读 · 3月19日

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Arxiv

0+阅读 · 3月12日

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Arxiv

0+阅读 · 3月5日

Human-Certified Module Repositories for the AI Age

Arxiv

0+阅读 · 3月4日

GraphLake: A Purpose-Built Graph Compute Engine for Lakehouse

Arxiv

0+阅读 · 3月4日

The Science Data Lake: A Unified Open Infrastructure Integrating 293 Million Papers Across Eight Scholarly Sources with Embedding-Based Ontology Alignment

Arxiv

0+阅读 · 3月3日

Cooperation After the Algorithm: Designing Human-AI Coexistence Beyond the Illusion of Collaboration

Arxiv

0+阅读 · 2月23日

相关基金

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于物联网的准噶尔盆地南缘绿洲-荒漠交错带水资源调控研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向有源配电网的数据传输优化及智能过滤机制

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于语义推理的船舶舱室布置进化设计方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向流程工业的分布式状态估计与输出反馈控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

配送中心物流作业调度问题的建模与优化

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

电商环境下的仓库系统的运作研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于“数字链”系统的建筑设计与数控建造

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员