Building a Correct-by-Design Lakehouse. Data Contracts, Versioning, and Transactional Pipelines for Humans and Agents - 专知论文

会员服务 ·

0

设计 · 构建 · 分析 · 云平台 · 操作 ·

Building a Correct-by-Design Lakehouse. Data Contracts, Versioning, and Transactional Pipelines for Humans and Agents

翻译：构建一个设计即正确的湖仓：面向人类与智能体的数据契约、版本控制与事务性流水线

Weiming Sheng,Jinlang Wang,Manuel Barros,Aldrin Montana,Jacopo Tagliabue,Luca Bigon

from arxiv, Pre-print (PaPoC 2026)

Lakehouses are the default cloud platform for analytics and AI, but they become unsafe when untrusted actors concurrently operate on production data: upstream-downstream mismatches surface only at runtime, and multi-table pipelines can leak partial effects. Inspired by software engineering, we design Bauplan, a code-first lakehouse that aims to make (most) illegal states unrepresentable using familiar abstractions. Bauplan acts along three axes: typed table contracts to make pipeline boundaries checkable, Git-like data versioning for review and reproducibility, and transactional runs that guarantee pipeline-level atomicity. We report early results from a lightweight formal transaction model and discuss future work motivated by counterexamples.

翻译：湖仓已成为分析与人工智能的默认云平台，但当非受信参与者并发操作生产数据时，其安全性将受到威胁：上下游不匹配问题仅在运行时显现，多表流水线可能泄露部分处理结果。受软件工程思想启发，我们设计了Bauplan——一个代码优先的湖仓系统，旨在通过熟悉的抽象机制使（大多数）非法状态无法表达。Bauplan沿三个维度展开：通过类型化表契约实现流水线边界的可检查性，采用类Git数据版本控制以支持审查与复现，以及通过事务性运行保障流水线级别的原子性。我们报告了基于轻量级形式化事务模型的初步成果，并讨论了由反例驱动的未来研究方向。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

21+阅读 · 3月8日

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

专知会员服务

50+阅读 · 2025年2月24日

腾讯大数据实时湖仓智能优化实践

腾讯大数据实时湖仓智能优化实践

专知会员服务

20+阅读 · 2024年9月19日

数据湖核心能力解析

数据湖核心能力解析

专知会员服务

33+阅读 · 2024年6月12日

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

专知会员服务

55+阅读 · 2022年12月23日

实时数据湖在字节跳动的实践

实时数据湖在字节跳动的实践

专知会员服务

30+阅读 · 2022年5月28日

阿里云发布《中国云原生数据湖应用洞察白皮书》

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

【2020新书】数据工程师的指南：Azure存储、流媒体和批处理分析，450页pdf

【2020新书】数据工程师的指南：Azure存储、流媒体和批处理分析，450页pdf

专知会员服务

21+阅读 · 2020年10月31日

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

专知会员服务

59+阅读 · 2020年6月17日

众包数据库综述

专知会员服务

32+阅读 · 2020年5月20日

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

大数据数仓学习路线

大数据数仓学习路线

DataFunTalk

11+阅读 · 2020年8月5日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

最佳实践：阿里巴巴数据中台

最佳实践：阿里巴巴数据中台

AliData

26+阅读 · 2019年7月26日

工行基于MySQL构建分布式架构的转型之路

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【干货】电商数据中台如何构建？

【干货】电商数据中台如何构建？

AliData

11+阅读 · 2019年4月4日

企业数据AI化战略：从数据中台到AI中台

企业数据AI化战略：从数据中台到AI中台

36大数据

11+阅读 · 2019年2月18日

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

产业智能官

12+阅读 · 2019年1月29日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

基于物联网的准噶尔盆地南缘绿洲-荒漠交错带水资源调控研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向有源配电网的数据传输优化及智能过滤机制

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向流程工业的分布式状态估计与输出反馈控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

配送中心物流作业调度问题的建模与优化

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

电商环境下的仓库系统的运作研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于“数字链”系统的建筑设计与数控建造

国家自然科学基金

2+阅读 · 2014年12月31日

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Arxiv

0+阅读 · 3月12日

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Arxiv

0+阅读 · 3月12日

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Arxiv

0+阅读 · 3月5日

Human-Certified Module Repositories for the AI Age

Arxiv

0+阅读 · 3月4日

GraphLake: A Purpose-Built Graph Compute Engine for Lakehouse

Arxiv

0+阅读 · 3月4日

The Science Data Lake: A Unified Open Infrastructure Integrating 293 Million Papers Across Eight Scholarly Sources with Embedding-Based Ontology Alignment

Arxiv

0+阅读 · 3月3日

Cooperation After the Algorithm: Designing Human-AI Coexistence Beyond the Illusion of Collaboration

Arxiv

0+阅读 · 2月23日

DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows

DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows

Arxiv

0+阅读 · 2月18日

LakeHopper: Cross Data Lakes Column Type Annotation through Model Adaptation

Arxiv

0+阅读 · 2月9日

Kugelblitz: Executable, Cost-Aware Design-Space Exploration for Programmable Packet Pipelines

Arxiv

0+阅读 · 2月8日

VIP会员

文章信息

相关主题

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

12+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

6+阅读 · 4月24日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

21+阅读 · 3月8日

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

专知会员服务

50+阅读 · 2025年2月24日

腾讯大数据实时湖仓智能优化实践

腾讯大数据实时湖仓智能优化实践

专知会员服务

20+阅读 · 2024年9月19日

数据湖核心能力解析

数据湖核心能力解析

专知会员服务

33+阅读 · 2024年6月12日

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

【2022新书】云数据湖:构建鲁棒的云数据架构指南，430页pdf

专知会员服务

55+阅读 · 2022年12月23日

实时数据湖在字节跳动的实践

实时数据湖在字节跳动的实践

专知会员服务

30+阅读 · 2022年5月28日

阿里云发布《中国云原生数据湖应用洞察白皮书》

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

【2020新书】数据工程师的指南：Azure存储、流媒体和批处理分析，450页pdf

【2020新书】数据工程师的指南：Azure存储、流媒体和批处理分析，450页pdf

专知会员服务

21+阅读 · 2020年10月31日

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

专知会员服务

59+阅读 · 2020年6月17日

众包数据库综述

专知会员服务

32+阅读 · 2020年5月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

大数据数仓学习路线

大数据数仓学习路线

DataFunTalk

11+阅读 · 2020年8月5日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

最佳实践：阿里巴巴数据中台

最佳实践：阿里巴巴数据中台

AliData

26+阅读 · 2019年7月26日

工行基于MySQL构建分布式架构的转型之路

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【干货】电商数据中台如何构建？

【干货】电商数据中台如何构建？

AliData

11+阅读 · 2019年4月4日

企业数据AI化战略：从数据中台到AI中台

企业数据AI化战略：从数据中台到AI中台

36大数据

11+阅读 · 2019年2月18日

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

产业智能官

12+阅读 · 2019年1月29日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

相关论文

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Arxiv

0+阅读 · 3月12日

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Arxiv

0+阅读 · 3月12日

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Arxiv

0+阅读 · 3月5日

Human-Certified Module Repositories for the AI Age

Arxiv

0+阅读 · 3月4日

GraphLake: A Purpose-Built Graph Compute Engine for Lakehouse

Arxiv

0+阅读 · 3月4日

The Science Data Lake: A Unified Open Infrastructure Integrating 293 Million Papers Across Eight Scholarly Sources with Embedding-Based Ontology Alignment

Arxiv

0+阅读 · 3月3日

Cooperation After the Algorithm: Designing Human-AI Coexistence Beyond the Illusion of Collaboration

Arxiv

0+阅读 · 2月23日

DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows

DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows

Arxiv

0+阅读 · 2月18日

LakeHopper: Cross Data Lakes Column Type Annotation through Model Adaptation

Arxiv

0+阅读 · 2月9日

Kugelblitz: Executable, Cost-Aware Design-Space Exploration for Programmable Packet Pipelines

Arxiv

0+阅读 · 2月8日

相关基金

基于物联网的准噶尔盆地南缘绿洲-荒漠交错带水资源调控研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向有源配电网的数据传输优化及智能过滤机制

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向流程工业的分布式状态估计与输出反馈控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

配送中心物流作业调度问题的建模与优化

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

电商环境下的仓库系统的运作研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于“数字链”系统的建筑设计与数控建造

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员