DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows - 专知论文

会员服务 ·

0

科学工作流 · 系统 · 操作 · 表示 · 结构 ·

DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows

翻译：DataJoint 2.0：面向智能体驱动科学工作流的计算基座

Dimitri Yatsenko,Thinh T. Nguyen

from arxiv, 20 pages, 2 figures, 1 table

Operational rigor determines whether human-agent collaboration succeeds or fails. Scientific data pipelines need the equivalent of DevOps -- SciOps -- yet common approaches fragment provenance across disconnected systems without transactional guarantees. DataJoint 2.0 addresses this gap through the relational workflow model: tables represent workflow steps, rows represent artifacts, foreign keys prescribe execution order. The schema specifies not only what data exists but how it is derived -- a single formal system where data structure, computational dependencies, and integrity constraints are all queryable, enforceable, and machine-readable. Four technical innovations extend this foundation: object-augmented schemas integrating relational metadata with scalable object storage, semantic matching using attribute lineage to prevent erroneous joins, an extensible type system for domain-specific formats, and distributed job coordination designed for composability with external orchestration. By unifying data structure, data, and computational transformations, DataJoint creates a substrate for SciOps where agents can participate in scientific workflows without risking data corruption.

翻译：操作严谨性决定了人机协作的成败。科学数据流水线需要类似 DevOps 的体系——SciOps——然而常见方法将溯源信息分散在缺乏事务保证的孤立系统中。DataJoint 2.0 通过关系型工作流模型解决这一缺陷：数据表表示工作流步骤，数据行表示工作产物，外键规定执行顺序。其模式不仅定义数据内容，更规定数据衍生方式——形成统一的形式化系统，使数据结构、计算依赖与完整性约束皆可查询、可执行且机器可读。四项技术突破扩展了此基础：集成关系型元数据与可扩展对象存储的对象增强模式、利用属性溯源防止错误连接操作的语义匹配机制、支持领域特定格式的可扩展类型系统，以及为外部编排工具可组合性设计的分布式作业协调框架。通过统一数据结构、数据实体与计算转换过程，DataJoint 构建了 SciOps 的基座，使智能体能在确保数据完整性的前提下参与科学工作流。

0

相关内容

科学工作流

科学工作流

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

专知会员服务

13+阅读 · 4月9日

【2023新书】Python数据科学手册:使用数据的基本工具，591页pdf

【2023新书】Python数据科学手册:使用数据的基本工具，591页pdf

专知会员服务

112+阅读 · 2023年2月28日

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

专知会员服务

41+阅读 · 2022年8月28日

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

专知会员服务

62+阅读 · 2022年7月16日

【2021新书】Python流数据实用机器学习，127页pdf

【2021新书】Python流数据实用机器学习，127页pdf

专知会员服务

75+阅读 · 2021年5月23日

【机器学习教程】生物导体MLInterfaces包到基因表达数据的应用，applications of the BioconductorMLInterfaces package to gene expression data

【机器学习教程】生物导体MLInterfaces包到基因表达数据的应用，applications of the BioconductorMLInterfaces package to gene expression data

专知会员服务

18+阅读 · 2020年1月11日

【AAAI Tutorials 2019】为大数据平台构建深度学习应用程序（Building Deep Learning Applications for Big Data Platforms）

【AAAI Tutorials 2019】为大数据平台构建深度学习应用程序（Building Deep Learning Applications for Big Data Platforms）

专知会员服务

11+阅读 · 2019年11月18日

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

专知会员服务

28+阅读 · 2019年11月2日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

专知会员服务

32+阅读 · 2019年10月25日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

TensorFlow 2.0中文开源书项目：日赞700，登上GitHub热榜

TensorFlow 2.0中文开源书项目：日赞700，登上GitHub热榜

机器之心

20+阅读 · 2019年11月17日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

Google大佬Josh Gordon发布Tensorflow 2.0入门教程, 附100页PPT下载

Google大佬Josh Gordon发布Tensorflow 2.0入门教程, 附100页PPT下载

专知

13+阅读 · 2019年8月23日

面试题：请简要介绍下tensorflow的计算图

面试题：请简要介绍下tensorflow的计算图

七月在线实验室

14+阅读 · 2019年6月10日

微软研究院出品《数据科学基础》，放眼未来40年（附PDF下载）

微软研究院出品《数据科学基础》，放眼未来40年（附PDF下载）

THU数据派

40+阅读 · 2019年5月21日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

产业智能官

12+阅读 · 2018年10月22日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

多数据中心环境中科学大数据应用的数据布局与执行优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于2-D空间离散数据的质量与产出的预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

Using a Human-AI Teaming Approach to Create and Curate Scientific Datasets with the SCILIRE System

Arxiv

0+阅读 · 3月13日

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Arxiv

0+阅读 · 3月10日

OptBench: An Interactive Workbench for AI/ML-SQL Co-Optimization[Extended Demonstration Proposal]

Arxiv

0+阅读 · 3月9日

Scaling Generalist Data-Analytic Agents

Arxiv

0+阅读 · 2月27日

Benchmarking AI Performance on End-to-End Data Science Projects

Arxiv

0+阅读 · 2月15日

Anagent For Enhancing Scientific Table & Figure Analysis

Arxiv

0+阅读 · 2月12日

Learning to Compose for Cross-domain Agentic Workflow Generation

Arxiv

0+阅读 · 2月11日

Anagent For Enhancing Scientific Table & Figure Analysis

Arxiv

0+阅读 · 2月10日

SciDataCopilot: An Agentic Data Preparation Framework for AGI-driven Scientific Discovery

Arxiv

0+阅读 · 2月9日

AgentXRay: White-Boxing Agentic Systems via Workflow Reconstruction

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

科学工作流

最新内容

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

4+阅读 · 今天12:53

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

3+阅读 · 今天12:39

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

2+阅读 · 今天12:32

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

1+阅读 · 今天12:25

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

1+阅读 · 今天12:14

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

0+阅读 · 今天12:08

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

4+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

11+阅读 · 7月22日

相关VIP内容

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

专知会员服务

13+阅读 · 4月9日

【2023新书】Python数据科学手册:使用数据的基本工具，591页pdf

【2023新书】Python数据科学手册:使用数据的基本工具，591页pdf

专知会员服务

112+阅读 · 2023年2月28日

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

专知会员服务

41+阅读 · 2022年8月28日

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

专知会员服务

62+阅读 · 2022年7月16日

【2021新书】Python流数据实用机器学习，127页pdf

【2021新书】Python流数据实用机器学习，127页pdf

专知会员服务

75+阅读 · 2021年5月23日

【机器学习教程】生物导体MLInterfaces包到基因表达数据的应用，applications of the BioconductorMLInterfaces package to gene expression data

【机器学习教程】生物导体MLInterfaces包到基因表达数据的应用，applications of the BioconductorMLInterfaces package to gene expression data

专知会员服务

18+阅读 · 2020年1月11日

【AAAI Tutorials 2019】为大数据平台构建深度学习应用程序（Building Deep Learning Applications for Big Data Platforms）

【AAAI Tutorials 2019】为大数据平台构建深度学习应用程序（Building Deep Learning Applications for Big Data Platforms）

专知会员服务

11+阅读 · 2019年11月18日

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

专知会员服务

28+阅读 · 2019年11月2日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

专知会员服务

32+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

乌克兰纵深打击如何重塑俄罗斯的战略选择

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

相关资讯

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

TensorFlow 2.0中文开源书项目：日赞700，登上GitHub热榜

TensorFlow 2.0中文开源书项目：日赞700，登上GitHub热榜

机器之心

20+阅读 · 2019年11月17日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

Google大佬Josh Gordon发布Tensorflow 2.0入门教程, 附100页PPT下载

Google大佬Josh Gordon发布Tensorflow 2.0入门教程, 附100页PPT下载

专知

13+阅读 · 2019年8月23日

面试题：请简要介绍下tensorflow的计算图

面试题：请简要介绍下tensorflow的计算图

七月在线实验室

14+阅读 · 2019年6月10日

微软研究院出品《数据科学基础》，放眼未来40年（附PDF下载）

微软研究院出品《数据科学基础》，放眼未来40年（附PDF下载）

THU数据派

40+阅读 · 2019年5月21日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

产业智能官

12+阅读 · 2018年10月22日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

相关论文

Using a Human-AI Teaming Approach to Create and Curate Scientific Datasets with the SCILIRE System

Arxiv

0+阅读 · 3月13日

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Arxiv

0+阅读 · 3月10日

OptBench: An Interactive Workbench for AI/ML-SQL Co-Optimization[Extended Demonstration Proposal]

Arxiv

0+阅读 · 3月9日

Scaling Generalist Data-Analytic Agents

Arxiv

0+阅读 · 2月27日

Benchmarking AI Performance on End-to-End Data Science Projects

Arxiv

0+阅读 · 2月15日

Anagent For Enhancing Scientific Table & Figure Analysis

Arxiv

0+阅读 · 2月12日

Learning to Compose for Cross-domain Agentic Workflow Generation

Arxiv

0+阅读 · 2月11日

Anagent For Enhancing Scientific Table & Figure Analysis

Arxiv

0+阅读 · 2月10日

SciDataCopilot: An Agentic Data Preparation Framework for AGI-driven Scientific Discovery

Arxiv

0+阅读 · 2月9日

AgentXRay: White-Boxing Agentic Systems via Workflow Reconstruction

Arxiv

0+阅读 · 2月6日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

多数据中心环境中科学大数据应用的数据布局与执行优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于2-D空间离散数据的质量与产出的预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员