机器学习工作流语法 (A Grammar of Machine Learning Workflows) - 专知论文

会员服务 ·

0

结构 · 结构性 · 约束 · 数据泄露 · 代码 ·

A Grammar of Machine Learning Workflows

翻译：机器学习工作流语法

from arxiv, 36 pages, v1.1. Two maintained implementations: Python (PyPI: mlw), R (GitHub: epagogy/ml). Code: github.com/epagogy/ml

Data leakage affected 294 published papers across 17 scientific fields (Kapoor & Narayanan, 2023); a living survey has since grown that count to 648 across 30 fields. The dominant response has been documentation: checklists, linters, best-practice guides. Documentation reduces errors but does not close structural failures. This paper proposes a structural remedy: a grammar that decomposes the supervised learning lifecycle into 8 kernel primitives connected by a typed directed acyclic graph (DAG), with four hard constraints that reject the two most damaging leakage classes at call time. The grammar's core contribution is the terminal assess constraint: a runtime-enforced evaluate/assess boundary where repeated test-set assessment is rejected by a guard on a nominally distinct Evidence type. A companion study across 2,047 experimental instances quantifies why this matters: selection leakage inflates performance by d_z = 0.93 and memorization leakage by d_z = 0.53-1.11. Two maintained implementations (Python, R) demonstrate the claims. The appendix specification lets anyone build a conforming version.

翻译：数据泄露影响了17个科学领域的294篇已发表论文（Kapoor & Narayanan, 2023）；一项持续更新的调查显示，该数字已增至30个领域的648篇。主要的应对措施是文档化：检查清单、代码检查工具、最佳实践指南。文档化能减少错误，但无法消除结构性缺陷。本文提出一种结构性解决方案：一种语法，将监督学习生命周期分解为8个核心原语，并通过类型化有向无环图（DAG）连接，其中包含四项硬约束，可在调用时拒绝两类最具破坏性的泄露。该语法的核心贡献是终端评估约束：一种运行时强制的评估/验证边界，通过名义上独立的证据类型守卫，拒绝重复的测试集评估。一项涵盖2,047个实验实例的伴随研究量化了其重要性：选择泄露使性能膨胀d_z = 0.93，记忆泄露使性能膨胀d_z = 0.53-1.11。两个持续维护的实现（Python, R）验证了上述主张。附录规范允许任何人构建符合该语法的版本。

0

相关内容

【斯坦福大学博士论文】高效且可信的机器学习的统计方法，267页pdf

【斯坦福大学博士论文】高效且可信的机器学习的统计方法，267页pdf

专知会员服务

29+阅读 · 2024年8月20日

【干货书】机器学习文本分析: 从深度学习到Transformer，510页pdf

【干货书】机器学习文本分析: 从深度学习到Transformer，510页pdf

专知会员服务

122+阅读 · 2022年5月19日

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

专知会员服务

44+阅读 · 2022年3月25日

《机器学习》简明导论，21页pdf

《机器学习》简明导论，21页pdf

专知会员服务

72+阅读 · 2022年3月2日

UCM《机器学习导论笔记》，80页pdf CSE176 Introduction to Machine Learning

专知会员服务

32+阅读 · 2021年9月29日

【新书：机器学习简介】《A Concise Introduction to Machine Learning》by A.C. Faul (CRC 2019)

【新书：机器学习简介】《A Concise Introduction to Machine Learning》by A.C. Faul (CRC 2019)

专知会员服务

77+阅读 · 2020年2月8日

【新书推荐】机器学习--高级技术与新出应用（Machine Learning Advanced Techniques and Emerging Applications），Hamed Farhadi

【新书推荐】机器学习--高级技术与新出应用（Machine Learning Advanced Techniques and Emerging Applications），Hamed Farhadi

专知会员服务

21+阅读 · 2019年11月24日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用（Definitions, methods, and applications in interpretable machine learning）,W. James Murdoch,Chandan Singh

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用（Definitions, methods, and applications in interpretable machine learning）,W. James Murdoch,Chandan Singh

专知会员服务

55+阅读 · 2019年11月20日

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

专知

32+阅读 · 2022年11月16日

机器学习必备的数学基础有哪些？

机器学习必备的数学基础有哪些？

人工智能头条

12+阅读 · 2019年10月18日

李宏毅《机器学习》完整笔记 —— 这可能是Github上最好的机器学习资源

李宏毅《机器学习》完整笔记 —— 这可能是Github上最好的机器学习资源

大数据技术

18+阅读 · 2019年8月20日

《AI 算法手册》目录 | 机器学习知识点系统性梳理！

《AI 算法手册》目录 | 机器学习知识点系统性梳理！

数说工作室

22+阅读 · 2019年5月28日

联邦机器学习-概念与应用，【附19页论文下载】

联邦机器学习-概念与应用，【附19页论文下载】

专知

80+阅读 · 2019年3月9日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

机器学习论文大全，涵盖深度学习、计算机视觉、分类、聚类、机器人学等

机器学习论文大全，涵盖深度学习、计算机视觉、分类、聚类、机器人学等

专知

17+阅读 · 2019年1月4日

用Python实现流行机器学习算法

用Python实现流行机器学习算法

Python程序员

21+阅读 · 2018年12月31日

干货警告！国外有个小姐姐给29篇经典机器学习论文写了总结 | 资源

干货警告！国外有个小姐姐给29篇经典机器学习论文写了总结 | 资源

量子位

15+阅读 · 2018年12月11日

机器学习自动文本分类

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Arxiv

0+阅读 · 3月8日

Leveraging Large Language Models for Automated Scalable Development of Open Scientific Databases

Arxiv

0+阅读 · 3月7日

From Guidelines to Practice: Evaluating the Reproducibility of Methods in Computational Social Science

Arxiv

0+阅读 · 3月3日

ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery

Arxiv

0+阅读 · 3月2日

Beyond Static Pipelines: Learning Dynamic Workflows for Text-to-SQL

Arxiv

0+阅读 · 2月17日

Learning to Adopt Generative AI

Arxiv

0+阅读 · 2月15日

From Guidelines to Practice: Evaluating the Reproducibility of Methods in Computational Social Science

Arxiv

0+阅读 · 2月13日

AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning

Arxiv

0+阅读 · 2月12日

Multimodal Scientific Learning Beyond Diffusions and Flows

Arxiv

0+阅读 · 2月1日

Machine Learning: Algorithms, Models, and Applications

Arxiv

23+阅读 · 2022年1月6日

VIP会员

文章信息

相关主题

最新内容

美伊停火协议：评估、各方反应及美国会面临的问题

美伊停火协议：评估、各方反应及美国会面临的问题

专知会员服务

3+阅读 · 今天13:00

国外反无人机系统与技术动态

国外反无人机系统与技术动态

专知会员服务

2+阅读 · 今天12:48

世界无人无线电情报系统经验分析与实验实现（研究论文）

世界无人无线电情报系统经验分析与实验实现（研究论文）

专知会员服务

3+阅读 · 今天12:44

大规模作战行动中的战术作战评估（研究论文）

大规模作战行动中的战术作战评估（研究论文）

专知会员服务

3+阅读 · 今天12:21

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

专知会员服务

3+阅读 · 今天12:13

未来的海战无人自主系统

未来的海战无人自主系统

专知会员服务

2+阅读 · 今天12:05

美军多域作战现状分析：战略、概念还是幻想？

美军多域作战现状分析：战略、概念还是幻想？

专知会员服务

3+阅读 · 今天11:52

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

专知会员服务

15+阅读 · 今天7:12

无人机与反无人机系统（书籍）

无人机与反无人机系统（书籍）

专知会员服务

14+阅读 · 今天6:45

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

专知会员服务

6+阅读 · 今天6:12

美陆军2026条令：安全与机动支援

美陆军2026条令：安全与机动支援

专知会员服务

5+阅读 · 今天5:49

【牛津博士论文】以语言为接口的医学影像表示学习

【牛津博士论文】以语言为接口的医学影像表示学习

专知会员服务

11+阅读 · 4月13日

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

专知会员服务

9+阅读 · 4月13日

从原型到实战：扩展美陆军下一代指挥控制能力（试验进展）

从原型到实战：扩展美陆军下一代指挥控制能力（试验进展）

专知会员服务

12+阅读 · 4月13日

技术、多域威慑与海上战争（报告）

技术、多域威慑与海上战争（报告）

专知会员服务

8+阅读 · 4月13日

相关VIP内容

【斯坦福大学博士论文】高效且可信的机器学习的统计方法，267页pdf

【斯坦福大学博士论文】高效且可信的机器学习的统计方法，267页pdf

专知会员服务

29+阅读 · 2024年8月20日

【干货书】机器学习文本分析: 从深度学习到Transformer，510页pdf

【干货书】机器学习文本分析: 从深度学习到Transformer，510页pdf

专知会员服务

122+阅读 · 2022年5月19日

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

专知会员服务

44+阅读 · 2022年3月25日

《机器学习》简明导论，21页pdf

《机器学习》简明导论，21页pdf

专知会员服务

72+阅读 · 2022年3月2日

UCM《机器学习导论笔记》，80页pdf CSE176 Introduction to Machine Learning

专知会员服务

32+阅读 · 2021年9月29日

【新书：机器学习简介】《A Concise Introduction to Machine Learning》by A.C. Faul (CRC 2019)

【新书：机器学习简介】《A Concise Introduction to Machine Learning》by A.C. Faul (CRC 2019)

专知会员服务

77+阅读 · 2020年2月8日

【新书推荐】机器学习--高级技术与新出应用（Machine Learning Advanced Techniques and Emerging Applications），Hamed Farhadi

【新书推荐】机器学习--高级技术与新出应用（Machine Learning Advanced Techniques and Emerging Applications），Hamed Farhadi

专知会员服务

21+阅读 · 2019年11月24日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用（Definitions, methods, and applications in interpretable machine learning）,W. James Murdoch,Chandan Singh

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用（Definitions, methods, and applications in interpretable machine learning）,W. James Murdoch,Chandan Singh

专知会员服务

55+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

国外反无人机系统与技术动态

大规模作战行动中的战术作战评估（研究论文）

美伊停火协议：评估、各方反应及美国会面临的问题

世界无人无线电情报系统经验分析与实验实现（研究论文）

相关资讯

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

专知

32+阅读 · 2022年11月16日

机器学习必备的数学基础有哪些？

机器学习必备的数学基础有哪些？

人工智能头条

12+阅读 · 2019年10月18日

李宏毅《机器学习》完整笔记 —— 这可能是Github上最好的机器学习资源

李宏毅《机器学习》完整笔记 —— 这可能是Github上最好的机器学习资源

大数据技术

18+阅读 · 2019年8月20日

《AI 算法手册》目录 | 机器学习知识点系统性梳理！

《AI 算法手册》目录 | 机器学习知识点系统性梳理！

数说工作室

22+阅读 · 2019年5月28日

联邦机器学习-概念与应用，【附19页论文下载】

联邦机器学习-概念与应用，【附19页论文下载】

专知

80+阅读 · 2019年3月9日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

机器学习论文大全，涵盖深度学习、计算机视觉、分类、聚类、机器人学等

机器学习论文大全，涵盖深度学习、计算机视觉、分类、聚类、机器人学等

专知

17+阅读 · 2019年1月4日

用Python实现流行机器学习算法

用Python实现流行机器学习算法

Python程序员

21+阅读 · 2018年12月31日

干货警告！国外有个小姐姐给29篇经典机器学习论文写了总结 | 资源

干货警告！国外有个小姐姐给29篇经典机器学习论文写了总结 | 资源

量子位

15+阅读 · 2018年12月11日

机器学习自动文本分类

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

相关论文

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Arxiv

0+阅读 · 3月8日

Leveraging Large Language Models for Automated Scalable Development of Open Scientific Databases

Arxiv

0+阅读 · 3月7日

From Guidelines to Practice: Evaluating the Reproducibility of Methods in Computational Social Science

Arxiv

0+阅读 · 3月3日

ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery

Arxiv

0+阅读 · 3月2日

Beyond Static Pipelines: Learning Dynamic Workflows for Text-to-SQL

Arxiv

0+阅读 · 2月17日

Learning to Adopt Generative AI

Arxiv

0+阅读 · 2月15日

From Guidelines to Practice: Evaluating the Reproducibility of Methods in Computational Social Science

Arxiv

0+阅读 · 2月13日

AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning

Arxiv

0+阅读 · 2月12日

Multimodal Scientific Learning Beyond Diffusions and Flows

Arxiv

0+阅读 · 2月1日

Machine Learning: Algorithms, Models, and Applications

Arxiv

23+阅读 · 2022年1月6日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员