Statistical Learning Theory in Lean 4: Empirical Processes from Scratch - 专知论文

会员服务 ·

0

学习理论 · 统计学习 · 统计学习理论 · 形式化 · 统计学 ·

Statistical Learning Theory in Lean 4: Empirical Processes from Scratch

翻译：Lean 4中的统计学习理论：从零开始的实证过程

Yuanhe Zhang,Jason D. Lee,Fanghui Liu

from arxiv, 19 pages, 2 figures. Comments are welcome

We present the first comprehensive Lean 4 formalization of statistical learning theory (SLT) grounded in empirical process theory. Our end-to-end formal infrastructure implement the missing contents in latest Lean 4 Mathlib library, including a complete development of Gaussian Lipschitz concentration, the first formalization of Dudley's entropy integral theorem for sub-Gaussian processes, and an application to least-squares (sparse) regression with a sharp rate. The project was carried out using a human-AI collaborative workflow, in which humans design proof strategies and AI agents execute tactical proof construction, leading to the human-verified Lean 4 toolbox for SLT. Beyond implementation, the formalization process exposes and resolves implicit assumptions and missing details in standard SLT textbooks, enforcing a granular, line-by-line understanding of the theory. This work establishes a reusable formal foundation and opens the door for future developments in machine learning theory. The code is available at https://github.com/YuanheZ/lean-stat-learning-theory

翻译：我们首次在Lean 4中基于实证过程理论，对统计学习理论进行了全面的形式化。我们的端到端形式化基础设施实现了最新Lean 4 Mathlib库中缺失的内容，包括高斯Lipschitz集中性的完整推导、子高斯过程的Dudley熵积分定理的首次形式化，以及一个具有尖锐速率的（稀疏）最小二乘回归的应用。该项目采用人机协作的工作流程完成，其中人类设计证明策略，AI代理执行战术性证明构造，最终形成了经过人工验证的、用于统计学习理论的Lean 4工具箱。除了实现之外，形式化过程还揭示并解决了标准统计学习理论教科书中隐含的假设和缺失的细节，从而强制了对理论进行逐行细粒度的理解。这项工作建立了一个可重用的形式化基础，并为机器学习理论的未来发展打开了大门。代码可在 https://github.com/YuanheZ/lean-stat-learning-theory 获取。

0

相关内容

学习理论

【干货书】统计学习理论几何视角，162页pdf

【干货书】统计学习理论几何视角，162页pdf

专知会员服务

42+阅读 · 2022年12月19日

如何理解统计学习理论、优化与神经网络？伯克利Spencer Frei最新演讲报告，附58页ppt与视频

如何理解统计学习理论、优化与神经网络？伯克利Spencer Frei最新演讲报告，附58页ppt与视频

专知会员服务

45+阅读 · 2022年8月13日

哥大教授Vladimir Vapnik讲解《关于学习的全面统计理论》，59页PPT

哥大教授Vladimir Vapnik讲解《关于学习的全面统计理论》，59页PPT

专知会员服务

19+阅读 · 2022年4月2日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

52+阅读 · 2020年12月14日

【经典书】统计学理论，925页pdf

【经典书】统计学理论，925页pdf

专知会员服务

168+阅读 · 2020年12月6日

【新书】R语言统计学习，R for Statistical Learning，301页pdf

专知会员服务

30+阅读 · 2020年11月4日

【硬核课】统计学习理论，321页ppt

【硬核课】统计学习理论，321页ppt

专知会员服务

140+阅读 · 2020年6月30日

【经典书】统计学习导论，434页pdf，斯坦福大学

【经典书】统计学习导论，434页pdf，斯坦福大学

专知会员服务

240+阅读 · 2020年4月29日

【UIUC硬核书】统计学习理论，Statistical Learning Theory，213页pdf

【UIUC硬核书】统计学习理论，Statistical Learning Theory，213页pdf

专知会员服务

134+阅读 · 2020年4月14日

统计学习理论之父Vapnik-MIT2020报告《完全学习统计理论Statistical Theory of Learning》

统计学习理论之父Vapnik-MIT2020报告《完全学习统计理论Statistical Theory of Learning》

专知会员服务

85+阅读 · 2020年2月16日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

专知

35+阅读 · 2021年4月17日

经典教材《统计学习导论》Python版

经典教材《统计学习导论》Python版

专知

28+阅读 · 2020年10月19日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

专知

13+阅读 · 2020年2月9日

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

专知

41+阅读 · 2019年11月18日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

GitHub趋势榜首：李航《统计学习方法》Python代码实现

GitHub趋势榜首：李航《统计学习方法》Python代码实现

新智元

66+阅读 · 2019年11月13日

资源 | 李航老师《统计学习方法》(第2版）课件分享，附下载

资源 | 李航老师《统计学习方法》(第2版）课件分享，附下载

新智元

38+阅读 · 2019年11月11日

学它！李航《统计学习方法》课件，清华大学深圳研究院教授制作

学它！李航《统计学习方法》课件，清华大学深圳研究院教授制作

机器之心

38+阅读 · 2019年11月11日

这一份217页斯坦福大学统计学习理论笔记，Percy Liang带你搞清楚难懂的理论基础

这一份217页斯坦福大学统计学习理论笔记，Percy Liang带你搞清楚难懂的理论基础

专知

24+阅读 · 2018年12月20日

斯坦福统计学习理论笔记：Percy Liang带你搞定「贼难」的理论基础

斯坦福统计学习理论笔记：Percy Liang带你搞定「贼难」的理论基础

机器之心

26+阅读 · 2018年12月18日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

分数随机微分方程的定性理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

高斯序列与过程的极值理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

Berezin变换及相关的算子理论

国家自然科学基金

1+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

A theory of learning data statistics in diffusion models, from easy to hard

Arxiv

0+阅读 · 3月13日

LeanCat: A Benchmark Suite for Formal Category Theory in Lean (Part I: 1-Categories)

Arxiv

0+阅读 · 2月25日

VeriSoftBench: Repository-Scale Formal Verification Benchmarks for Lean

Arxiv

0+阅读 · 2月20日

Formalization of Harder-Narasimhan theory

Arxiv

0+阅读 · 2月15日

Pursuit of Truth and Beauty in Lean 4: Formally Verified Theory of Grammars, Optimization, Matroids

Arxiv

0+阅读 · 2月13日

StatLLaMA: Multi-Stage training for domain-optimized statistical large language models

Arxiv

0+阅读 · 2月11日

PBLean: Pseudo-Boolean Proof Certificates for Lean 4

Arxiv

0+阅读 · 2月9日

Towards Real-World Industrial-Scale Verification: LLM-Driven Theorem Proving on seL4

Arxiv

0+阅读 · 2月9日

Construction-Verification: A Benchmark for Applied Mathematics in Lean 4

Arxiv

0+阅读 · 2月1日

MathlibLemma: Folklore Lemma Generation and Benchmark for Formal Mathematics

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

统计学习理论

最新内容

现代战争的隐蔽系统：伊朗战争十大启示

现代战争的隐蔽系统：伊朗战争十大启示

专知会员服务

0+阅读 · 今天3:58

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

3+阅读 · 6月26日

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

4+阅读 · 6月26日

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

12+阅读 · 6月26日

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

5+阅读 · 6月26日

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

4+阅读 · 6月26日

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

3+阅读 · 6月26日

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

9+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

相关VIP内容

【干货书】统计学习理论几何视角，162页pdf

【干货书】统计学习理论几何视角，162页pdf

专知会员服务

42+阅读 · 2022年12月19日

如何理解统计学习理论、优化与神经网络？伯克利Spencer Frei最新演讲报告，附58页ppt与视频

如何理解统计学习理论、优化与神经网络？伯克利Spencer Frei最新演讲报告，附58页ppt与视频

专知会员服务

45+阅读 · 2022年8月13日

哥大教授Vladimir Vapnik讲解《关于学习的全面统计理论》，59页PPT

哥大教授Vladimir Vapnik讲解《关于学习的全面统计理论》，59页PPT

专知会员服务

19+阅读 · 2022年4月2日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

52+阅读 · 2020年12月14日

【经典书】统计学理论，925页pdf

【经典书】统计学理论，925页pdf

专知会员服务

168+阅读 · 2020年12月6日

【新书】R语言统计学习，R for Statistical Learning，301页pdf

专知会员服务

30+阅读 · 2020年11月4日

【硬核课】统计学习理论，321页ppt

【硬核课】统计学习理论，321页ppt

专知会员服务

140+阅读 · 2020年6月30日

【经典书】统计学习导论，434页pdf，斯坦福大学

【经典书】统计学习导论，434页pdf，斯坦福大学

专知会员服务

240+阅读 · 2020年4月29日

【UIUC硬核书】统计学习理论，Statistical Learning Theory，213页pdf

【UIUC硬核书】统计学习理论，Statistical Learning Theory，213页pdf

专知会员服务

134+阅读 · 2020年4月14日

统计学习理论之父Vapnik-MIT2020报告《完全学习统计理论Statistical Theory of Learning》

统计学习理论之父Vapnik-MIT2020报告《完全学习统计理论Statistical Theory of Learning》

专知会员服务

85+阅读 · 2020年2月16日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

无人机自主控制与人工智能：系统性综述

现代战争的隐蔽系统：伊朗战争十大启示

GNN跨域综述：从消息传递到图基础模型

相关资讯

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

专知

35+阅读 · 2021年4月17日

经典教材《统计学习导论》Python版

经典教材《统计学习导论》Python版

专知

28+阅读 · 2020年10月19日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

专知

13+阅读 · 2020年2月9日

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

专知

41+阅读 · 2019年11月18日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

GitHub趋势榜首：李航《统计学习方法》Python代码实现

GitHub趋势榜首：李航《统计学习方法》Python代码实现

新智元

66+阅读 · 2019年11月13日

资源 | 李航老师《统计学习方法》(第2版）课件分享，附下载

资源 | 李航老师《统计学习方法》(第2版）课件分享，附下载

新智元

38+阅读 · 2019年11月11日

学它！李航《统计学习方法》课件，清华大学深圳研究院教授制作

学它！李航《统计学习方法》课件，清华大学深圳研究院教授制作

机器之心

38+阅读 · 2019年11月11日

这一份217页斯坦福大学统计学习理论笔记，Percy Liang带你搞清楚难懂的理论基础

这一份217页斯坦福大学统计学习理论笔记，Percy Liang带你搞清楚难懂的理论基础

专知

24+阅读 · 2018年12月20日

斯坦福统计学习理论笔记：Percy Liang带你搞定「贼难」的理论基础

斯坦福统计学习理论笔记：Percy Liang带你搞定「贼难」的理论基础

机器之心

26+阅读 · 2018年12月18日

相关论文

A theory of learning data statistics in diffusion models, from easy to hard

Arxiv

0+阅读 · 3月13日

LeanCat: A Benchmark Suite for Formal Category Theory in Lean (Part I: 1-Categories)

Arxiv

0+阅读 · 2月25日

VeriSoftBench: Repository-Scale Formal Verification Benchmarks for Lean

Arxiv

0+阅读 · 2月20日

Formalization of Harder-Narasimhan theory

Arxiv

0+阅读 · 2月15日

Pursuit of Truth and Beauty in Lean 4: Formally Verified Theory of Grammars, Optimization, Matroids

Arxiv

0+阅读 · 2月13日

StatLLaMA: Multi-Stage training for domain-optimized statistical large language models

Arxiv

0+阅读 · 2月11日

PBLean: Pseudo-Boolean Proof Certificates for Lean 4

Arxiv

0+阅读 · 2月9日

Towards Real-World Industrial-Scale Verification: LLM-Driven Theorem Proving on seL4

Arxiv

0+阅读 · 2月9日

Construction-Verification: A Benchmark for Applied Mathematics in Lean 4

Arxiv

0+阅读 · 2月1日

MathlibLemma: Folklore Lemma Generation and Benchmark for Formal Mathematics

Arxiv

0+阅读 · 1月30日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

分数随机微分方程的定性理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

高斯序列与过程的极值理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

Berezin变换及相关的算子理论

国家自然科学基金

1+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员