Building a Correct-by-Design Lakehouse. Data Contracts, Versioning, and Transactional Pipelines for Humans and Agents - 专知论文

会员服务 ·

0

设计 · 构建 · 分析 · 云平台 · 操作 ·

Building a Correct-by-Design Lakehouse. Data Contracts, Versioning, and Transactional Pipelines for Humans and Agents

翻译：构建一个设计即正确的湖仓：面向人类与智能体的数据契约、版本控制与事务性流水线

Weiming Sheng,Jinlang Wang,Manuel Barros,Aldrin Montana,Jacopo Tagliabue,Luca Bigon

from arxiv, Pre-print for PaPoC 2026

Lakehouses are the default cloud platform for analytics and AI, but they become unsafe when untrusted actors concurrently operate on production data: upstream-downstream mismatches surface only at runtime, and multi-table pipelines can leak partial effects. Inspired by software engineering, we design Bauplan, a code-first lakehouse that aims to make (most) illegal states unrepresentable using familiar abstractions. Bauplan acts along three axes: typed table contracts to make pipeline boundaries checkable, Git-like data versioning for review and reproducibility, and transactional runs that guarantee pipeline-level atomicity. We report early results from a lightweight formal transaction model and discuss future work motivated by counterexamples.

翻译：湖仓已成为分析与人工智能的默认云平台，但当非受信参与方并发操作生产数据时，其安全性将受到威胁：上下游数据不匹配仅在运行时显现，多表流水线可能泄露部分处理结果。受软件工程思想启发，我们设计了Bauplan——一个代码优先的湖仓系统，旨在通过熟悉的抽象概念使（大多数）非法状态无法被表征。Bauplan沿三个维度展开：通过类型化表契约实现流水线边界可校验，采用类Git数据版本控制支持审查与复现，以及通过事务性运行保障流水线级原子性。我们基于轻量级形式化事务模型的初步结果进行报告，并探讨由反例驱动的未来研究方向。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

专知会员服务

50+阅读 · 2025年2月24日

腾讯大数据实时湖仓智能优化实践

腾讯大数据实时湖仓智能优化实践

专知会员服务

20+阅读 · 2024年9月19日

数据湖核心能力解析

数据湖核心能力解析

专知会员服务

33+阅读 · 2024年6月12日

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

专知会员服务

56+阅读 · 2022年12月23日

实时数据湖在字节跳动的实践

实时数据湖在字节跳动的实践

专知会员服务

30+阅读 · 2022年5月28日

阿里云发布《中国云原生数据湖应用洞察白皮书》

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

【2020新书】数据工程师的指南：Azure存储、流媒体和批处理分析，450页pdf

【2020新书】数据工程师的指南：Azure存储、流媒体和批处理分析，450页pdf

专知会员服务

21+阅读 · 2020年10月31日

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

专知会员服务

59+阅读 · 2020年6月17日

众包数据库综述

专知会员服务

32+阅读 · 2020年5月20日

大数据数仓学习路线

大数据数仓学习路线

DataFunTalk

11+阅读 · 2020年8月5日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

最佳实践：阿里巴巴数据中台

最佳实践：阿里巴巴数据中台

AliData

26+阅读 · 2019年7月26日

工行基于MySQL构建分布式架构的转型之路

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【干货】电商数据中台如何构建？

【干货】电商数据中台如何构建？

AliData

11+阅读 · 2019年4月4日

Github项目推荐 | PyTorch 中文手册（pytorch handbook）

Github项目推荐 | PyTorch 中文手册（pytorch handbook）

AI研习社

50+阅读 · 2019年2月18日

企业数据AI化战略：从数据中台到AI中台

企业数据AI化战略：从数据中台到AI中台

36大数据

11+阅读 · 2019年2月18日

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

产业智能官

12+阅读 · 2019年1月29日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

基于物联网的准噶尔盆地南缘绿洲-荒漠交错带水资源调控研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向有源配电网的数据传输优化及智能过滤机制

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向流程工业的分布式状态估计与输出反馈控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

配送中心物流作业调度问题的建模与优化

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

电商环境下的仓库系统的运作研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于“数字链”系统的建筑设计与数控建造

国家自然科学基金

2+阅读 · 2014年12月31日

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Arxiv

0+阅读 · 3月12日

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Arxiv

0+阅读 · 3月12日

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Arxiv

0+阅读 · 3月5日

Human-Certified Module Repositories for the AI Age

Arxiv

0+阅读 · 3月4日

GraphLake: A Purpose-Built Graph Compute Engine for Lakehouse

Arxiv

0+阅读 · 3月4日

The Science Data Lake: A Unified Open Infrastructure Integrating 293 Million Papers Across Eight Scholarly Sources with Embedding-Based Ontology Alignment

Arxiv

0+阅读 · 3月3日

A Context-Aware Knowledge Graph Platform for Stream Processing in Industrial IoT

Arxiv

0+阅读 · 2月23日

DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows

DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows

Arxiv

0+阅读 · 2月18日

LakeHopper: Cross Data Lakes Column Type Annotation through Model Adaptation

Arxiv

0+阅读 · 2月9日

Kugelblitz: Executable, Cost-Aware Design-Space Exploration for Programmable Packet Pipelines

Arxiv

0+阅读 · 2月8日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

专知会员服务

50+阅读 · 2025年2月24日

腾讯大数据实时湖仓智能优化实践

腾讯大数据实时湖仓智能优化实践

专知会员服务

20+阅读 · 2024年9月19日

数据湖核心能力解析

数据湖核心能力解析

专知会员服务

33+阅读 · 2024年6月12日

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

专知会员服务

56+阅读 · 2022年12月23日

实时数据湖在字节跳动的实践

实时数据湖在字节跳动的实践

专知会员服务

30+阅读 · 2022年5月28日

阿里云发布《中国云原生数据湖应用洞察白皮书》

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

【2020新书】数据工程师的指南：Azure存储、流媒体和批处理分析，450页pdf

【2020新书】数据工程师的指南：Azure存储、流媒体和批处理分析，450页pdf

专知会员服务

21+阅读 · 2020年10月31日

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

专知会员服务

59+阅读 · 2020年6月17日

众包数据库综述

专知会员服务

32+阅读 · 2020年5月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

大数据数仓学习路线

大数据数仓学习路线

DataFunTalk

11+阅读 · 2020年8月5日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

最佳实践：阿里巴巴数据中台

最佳实践：阿里巴巴数据中台

AliData

26+阅读 · 2019年7月26日

工行基于MySQL构建分布式架构的转型之路

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【干货】电商数据中台如何构建？

【干货】电商数据中台如何构建？

AliData

11+阅读 · 2019年4月4日

Github项目推荐 | PyTorch 中文手册（pytorch handbook）

Github项目推荐 | PyTorch 中文手册（pytorch handbook）

AI研习社

50+阅读 · 2019年2月18日

企业数据AI化战略：从数据中台到AI中台

企业数据AI化战略：从数据中台到AI中台

36大数据

11+阅读 · 2019年2月18日

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

产业智能官

12+阅读 · 2019年1月29日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

相关论文

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Arxiv

0+阅读 · 3月12日

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Arxiv

0+阅读 · 3月12日

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Arxiv

0+阅读 · 3月5日

Human-Certified Module Repositories for the AI Age

Arxiv

0+阅读 · 3月4日

GraphLake: A Purpose-Built Graph Compute Engine for Lakehouse

Arxiv

0+阅读 · 3月4日

The Science Data Lake: A Unified Open Infrastructure Integrating 293 Million Papers Across Eight Scholarly Sources with Embedding-Based Ontology Alignment

Arxiv

0+阅读 · 3月3日

A Context-Aware Knowledge Graph Platform for Stream Processing in Industrial IoT

Arxiv

0+阅读 · 2月23日

DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows

DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows

Arxiv

0+阅读 · 2月18日

LakeHopper: Cross Data Lakes Column Type Annotation through Model Adaptation

Arxiv

0+阅读 · 2月9日

Kugelblitz: Executable, Cost-Aware Design-Space Exploration for Programmable Packet Pipelines

Arxiv

0+阅读 · 2月8日

相关基金

基于物联网的准噶尔盆地南缘绿洲-荒漠交错带水资源调控研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向有源配电网的数据传输优化及智能过滤机制

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向流程工业的分布式状态估计与输出反馈控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

配送中心物流作业调度问题的建模与优化

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

电商环境下的仓库系统的运作研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于“数字链”系统的建筑设计与数控建造

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员