AI4SLT: Empirical Processes in Lean 4 for Formal Statistical Learning Theory - 专知论文

会员服务 ·

0

形式化 · 学习理论 · AI · 统计学习 · 统计学习理论 ·

AI4SLT: Empirical Processes in Lean 4 for Formal Statistical Learning Theory

翻译：AI4SLT：基于Lean 4的经验过程形式化统计学习理论

Yuanhe Zhang,Jason D. Lee,Fanghui Liu

from arxiv, Accepted by ICML 2026

We present the first comprehensive Lean 4 formalization of statistical learning theory (SLT) grounded in empirical process theory. Our en-to-end formal infrastructure implement the missing contents in latest Lean library, including a complete development of Gaussian Lipschitz concentration, Dudley's entropy integral theorem for sub-Gaussian processes, and an application to least-squares (sparse) regression with a sharp rate. The project was carried out using a human-AI collaborative workflow, in which humans design proof strategies and AI agents execute tactical proof construction, leading to the human-verified Lean 4 toolbox for SLT. Beyond implementation, the formalization process exposes and resolves implicit assumptions and missing details in standard SLT textbooks, enforcing a granular, line-by-line understanding of the theory. This work establishes a reusable formal foundation and opens the door for future developments in machine learning theory. The code is provided in https://github.com/YuanheZ/lean-stat-learning-theory.

翻译：我们提出了首个基于经验过程理论的统计学习理论（SLT）的Lean 4完整形式化框架。该端到端形式化基础设施填补了最新Lean库中的缺失内容，包括高斯利普希茨集中性的完整推导、次高斯过程的达德利熵积分定理，以及其在具有尖锐率的（稀疏）最小二乘回归中的应用。该项目采用人机协作的流程实现：人类设计证明策略，AI代理执行战术性证明构造，最终形成了经人类验证的SLT Lean 4工具包。除实现本身外，形式化过程揭示并解决了标准SLT教材中隐含的假设与遗漏细节，强制对理论进行逐行细粒度理解。本工作建立了一个可复用的形式化基础，为机器学习理论的未来发展打开大门。代码详见https://github.com/YuanheZ/lean-stat-learning-theory。

0

相关内容

形式化

【干货书】无穷维统计模型的数学基础，705页pdf

【干货书】无穷维统计模型的数学基础，705页pdf

专知会员服务

73+阅读 · 2023年10月23日

【干货书】统计学习理论几何视角，162页pdf

【干货书】统计学习理论几何视角，162页pdf

专知会员服务

42+阅读 · 2022年12月19日

如何理解统计学习理论、优化与神经网络？伯克利Spencer Frei最新演讲报告，附58页ppt与视频

如何理解统计学习理论、优化与神经网络？伯克利Spencer Frei最新演讲报告，附58页ppt与视频

专知会员服务

45+阅读 · 2022年8月13日

哥大教授Vladimir Vapnik讲解《关于学习的全面统计理论》，59页PPT

哥大教授Vladimir Vapnik讲解《关于学习的全面统计理论》，59页PPT

专知会员服务

19+阅读 · 2022年4月2日

【新书】R语言统计学习，R for Statistical Learning，301页pdf

专知会员服务

30+阅读 · 2020年11月4日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

55+阅读 · 2020年9月7日

【UIUC硬核书】统计学习理论，Statistical Learning Theory，213页pdf

【UIUC硬核书】统计学习理论，Statistical Learning Theory，213页pdf

专知会员服务

135+阅读 · 2020年4月14日

普渡大学2020硬核课程《鲁棒机器学习理论》课件与笔记，38讲173页pdf

普渡大学2020硬核课程《鲁棒机器学习理论》课件与笔记，38讲173页pdf

专知会员服务

180+阅读 · 2020年3月28日

统计学习理论之父Vapnik-MIT2020报告《完全学习统计理论Statistical Theory of Learning》

统计学习理论之父Vapnik-MIT2020报告《完全学习统计理论Statistical Theory of Learning》

专知会员服务

85+阅读 · 2020年2月16日

【ICCV 2019 Workshop】Complete Dictionary Learning via L4-Norm Maximization over the Orthogonal Grou，加州大学伯克利分校马毅

【ICCV 2019 Workshop】Complete Dictionary Learning via L4-Norm Maximization over the Orthogonal Grou，加州大学伯克利分校马毅

专知会员服务

16+阅读 · 2019年10月31日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

专知

35+阅读 · 2021年4月17日

经典教材《统计学习导论》Python版

经典教材《统计学习导论》Python版

专知

28+阅读 · 2020年10月19日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知

27+阅读 · 2020年7月3日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

专知

13+阅读 · 2020年2月9日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

专知

41+阅读 · 2019年11月18日

资源 | 李航老师《统计学习方法》(第2版）课件分享，附下载

资源 | 李航老师《统计学习方法》(第2版）课件分享，附下载

新智元

38+阅读 · 2019年11月11日

学它！李航《统计学习方法》课件，清华大学深圳研究院教授制作

学它！李航《统计学习方法》课件，清华大学深圳研究院教授制作

机器之心

38+阅读 · 2019年11月11日

这一份217页斯坦福大学统计学习理论笔记，Percy Liang带你搞清楚难懂的理论基础

这一份217页斯坦福大学统计学习理论笔记，Percy Liang带你搞清楚难懂的理论基础

专知

24+阅读 · 2018年12月20日

斯坦福统计学习理论笔记：Percy Liang带你搞定「贼难」的理论基础

斯坦福统计学习理论笔记：Percy Liang带你搞定「贼难」的理论基础

机器之心

26+阅读 · 2018年12月18日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

高斯序列与过程的极值理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

EconCSLib: A Lean Library for Computational Economics and AI-Assisted Research

Arxiv

0+阅读 · 6月15日

Formalize Once, Edit the Rest: Efficient Lean-Based Answer Selection for Math Reasoning

Arxiv

0+阅读 · 6月14日

A Lean 4 Formalization of Euclidean Domain Algorithms from a 1986 Icon Experimentation Package

Arxiv

0+阅读 · 6月14日

A formal proof of the Ramanujan--Nagell theorem in Lean 4

Arxiv

0+阅读 · 6月1日

Formalizing multi-graded Brenner-Schröer Proj schemes and dilatations of rings in Lean4

Arxiv

0+阅读 · 5月31日

MathlibLemma: Folklore Lemma Generation and Benchmark for Formal Mathematics

Arxiv

0+阅读 · 5月27日

Lean-GAP: A Dataset of Formalized Graduate Algebra Problems

Arxiv

0+阅读 · 5月20日

Using Aristotle API for AI-Assisted Theorem Proving in Lean 4: A Formalisation Case Study of the Grasshopper Problem

Arxiv

0+阅读 · 5月19日

CSLibPremiseBench: Structure-Guided Premise Retrieval and Label Robustness for Lean 4 Computer-Science Theorems

Arxiv

0+阅读 · 5月14日

LeanSearch v2: Global Premise Retrieval for Lean 4 Theorem Proving

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

统计学习理论

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

【干货书】无穷维统计模型的数学基础，705页pdf

【干货书】无穷维统计模型的数学基础，705页pdf

专知会员服务

73+阅读 · 2023年10月23日

【干货书】统计学习理论几何视角，162页pdf

【干货书】统计学习理论几何视角，162页pdf

专知会员服务

42+阅读 · 2022年12月19日

如何理解统计学习理论、优化与神经网络？伯克利Spencer Frei最新演讲报告，附58页ppt与视频

如何理解统计学习理论、优化与神经网络？伯克利Spencer Frei最新演讲报告，附58页ppt与视频

专知会员服务

45+阅读 · 2022年8月13日

哥大教授Vladimir Vapnik讲解《关于学习的全面统计理论》，59页PPT

哥大教授Vladimir Vapnik讲解《关于学习的全面统计理论》，59页PPT

专知会员服务

19+阅读 · 2022年4月2日

【新书】R语言统计学习，R for Statistical Learning，301页pdf

专知会员服务

30+阅读 · 2020年11月4日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

55+阅读 · 2020年9月7日

【UIUC硬核书】统计学习理论，Statistical Learning Theory，213页pdf

【UIUC硬核书】统计学习理论，Statistical Learning Theory，213页pdf

专知会员服务

135+阅读 · 2020年4月14日

普渡大学2020硬核课程《鲁棒机器学习理论》课件与笔记，38讲173页pdf

普渡大学2020硬核课程《鲁棒机器学习理论》课件与笔记，38讲173页pdf

专知会员服务

180+阅读 · 2020年3月28日

统计学习理论之父Vapnik-MIT2020报告《完全学习统计理论Statistical Theory of Learning》

统计学习理论之父Vapnik-MIT2020报告《完全学习统计理论Statistical Theory of Learning》

专知会员服务

85+阅读 · 2020年2月16日

【ICCV 2019 Workshop】Complete Dictionary Learning via L4-Norm Maximization over the Orthogonal Grou，加州大学伯克利分校马毅

【ICCV 2019 Workshop】Complete Dictionary Learning via L4-Norm Maximization over the Orthogonal Grou，加州大学伯克利分校马毅

专知会员服务

16+阅读 · 2019年10月31日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

专知

35+阅读 · 2021年4月17日

经典教材《统计学习导论》Python版

经典教材《统计学习导论》Python版

专知

28+阅读 · 2020年10月19日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知

27+阅读 · 2020年7月3日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

专知

13+阅读 · 2020年2月9日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

专知

41+阅读 · 2019年11月18日

资源 | 李航老师《统计学习方法》(第2版）课件分享，附下载

资源 | 李航老师《统计学习方法》(第2版）课件分享，附下载

新智元

38+阅读 · 2019年11月11日

学它！李航《统计学习方法》课件，清华大学深圳研究院教授制作

学它！李航《统计学习方法》课件，清华大学深圳研究院教授制作

机器之心

38+阅读 · 2019年11月11日

这一份217页斯坦福大学统计学习理论笔记，Percy Liang带你搞清楚难懂的理论基础

这一份217页斯坦福大学统计学习理论笔记，Percy Liang带你搞清楚难懂的理论基础

专知

24+阅读 · 2018年12月20日

斯坦福统计学习理论笔记：Percy Liang带你搞定「贼难」的理论基础

斯坦福统计学习理论笔记：Percy Liang带你搞定「贼难」的理论基础

机器之心

26+阅读 · 2018年12月18日

相关论文

EconCSLib: A Lean Library for Computational Economics and AI-Assisted Research

Arxiv

0+阅读 · 6月15日

Formalize Once, Edit the Rest: Efficient Lean-Based Answer Selection for Math Reasoning

Arxiv

0+阅读 · 6月14日

A Lean 4 Formalization of Euclidean Domain Algorithms from a 1986 Icon Experimentation Package

Arxiv

0+阅读 · 6月14日

A formal proof of the Ramanujan--Nagell theorem in Lean 4

Arxiv

0+阅读 · 6月1日

Formalizing multi-graded Brenner-Schröer Proj schemes and dilatations of rings in Lean4

Arxiv

0+阅读 · 5月31日

MathlibLemma: Folklore Lemma Generation and Benchmark for Formal Mathematics

Arxiv

0+阅读 · 5月27日

Lean-GAP: A Dataset of Formalized Graduate Algebra Problems

Arxiv

0+阅读 · 5月20日

Using Aristotle API for AI-Assisted Theorem Proving in Lean 4: A Formalisation Case Study of the Grasshopper Problem

Arxiv

0+阅读 · 5月19日

CSLibPremiseBench: Structure-Guided Premise Retrieval and Label Robustness for Lean 4 Computer-Science Theorems

Arxiv

0+阅读 · 5月14日

LeanSearch v2: Global Premise Retrieval for Lean 4 Theorem Proving

Arxiv

0+阅读 · 5月14日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

高斯序列与过程的极值理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员