The Data Manifold under the Microscope - 专知论文

会员服务 ·

0

流形 · 几何结构 · 结构 · 数据流 · 基准 ·

The Data Manifold under the Microscope

翻译：显微镜下的数据流形

Marios Koulakis,Constantin Seibold

from arxiv, Accepted at ICML 2026. Camera-ready version

A significant gap exists between theory and practice in deep learning. Generalization and approximation error bounds are often derived for simplified models or are too loose to be informative. Many rely on the manifold hypothesis and on geometric regularity such as intrinsic dimension, curvature, and reach. Progress requires insight into data-manifold geometry and suitable benchmarks, yet existing options are polarized: analytic manifolds with known geometry but limited applicability, or real-world datasets where geometry is only coarsely estimable. We introduce a benchmarking framework for studying data geometry. We repurpose and extend dSprites and COIL-20 with additional transformation dimensions and dense, axis-aligned sampling, and pair them with finite-difference estimators that recover curvature, reach, and volume at near-ground-truth accuracy in a regime where general-purpose estimators are unreliable or difficult to deploy. The framework is intended as a controlled testbed, useful as a calibration environment for geometric estimators and a sandbox for probing theoretical assumptions. To illustrate its use, we present two application studies, namely assessing the scaling behavior of the bounds of Genovese et al. and Fefferman et al., and tracking the layer-wise geometry of a $β$-VAE, highlighting the behavior of current bounds and the value of controlled benchmarks for guiding and validating future theory. A reference implementation is available at https://github.com/koulakis/manifold-microscope.

翻译：深度学习中理论与实践之间存在显著鸿沟。泛化与近似误差边界通常针对简化模型推导，或过于松散而缺乏实用性。许多研究依赖于流形假设及其几何正则性，如本征维数、曲率和reach值。理论进展需要洞察数据流形的几何结构及合适的基准，但现有选择呈现两极分化：几何结构已知但适用性有限的分析流形，或几何特性仅能粗略估计的真实数据集。我们提出一个研究数据几何结构的基准测试框架。通过扩展dSprites和COIL-20数据集，增加额外变换维度与密集的轴对齐采样，并配备有限差分估计器，在通用估计器不可靠或难以部署的场景下，能以接近真实值的精度恢复曲率、reach值和体积。该框架旨在作为受控测试平台，既可用于几何估计器的校准环境，也可作为检验理论假设的沙盒。为示范其应用，我们开展两项案例研究：评估Genovese等人与Fefferman等人提出的边界缩放行为，以及追踪β-VAE的逐层几何结构，揭示现有边界的性能特征及受控基准对指导验证未来理论的价值。参考实现见https://github.com/koulakis/manifold-microscope。

0

相关内容

【阿姆斯特丹博士论文】表示学习中的信息理论

【阿姆斯特丹博士论文】表示学习中的信息理论

专知会员服务

23+阅读 · 2025年7月18日

西安交大最新《深度学习因果模型》综述论文，35页pdf涵盖292篇文献阐述三种数据范式因果模型

西安交大最新《深度学习因果模型》综述论文，35页pdf涵盖292篇文献阐述三种数据范式因果模型

专知会员服务

63+阅读 · 2023年11月5日

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

专知会员服务

18+阅读 · 2023年1月13日

几何观点下的深度学习

几何观点下的深度学习

专知会员服务

36+阅读 · 2022年12月13日

鄂维南院士：迈向机器学习的数学理论，66页ppt，附视频

鄂维南院士：迈向机器学习的数学理论，66页ppt，附视频

专知会员服务

83+阅读 · 2022年9月1日

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

专知会员服务

41+阅读 · 2022年8月28日

78页最新「深度学习现代数学」大综述论文，数学分析深度学习为何成功的理论

专知会员服务

109+阅读 · 2021年5月15日

124页哈佛数学系本科论文，带你了解流形学习的数学基础

124页哈佛数学系本科论文，带你了解流形学习的数学基础

专知会员服务

45+阅读 · 2020年12月23日

【报告推荐】三维及超几何处理中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Geometric Processing ）

【报告推荐】三维及超几何处理中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Geometric Processing ）

专知会员服务

12+阅读 · 2019年11月10日

992页《初等微积分：无穷小方法》(Elementary Calculus. An Infinitesimal Approach)书籍【附下载】

992页《初等微积分：无穷小方法》(Elementary Calculus. An Infinitesimal Approach)书籍【附下载】

专知会员服务

26+阅读 · 2019年10月28日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

18+阅读 · 2022年9月4日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

GAN生成式对抗网络

23+阅读 · 2018年12月2日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

产业智能官

10+阅读 · 2018年6月23日

深度丨顾险峰：深度学习的几何观点——流形分布定律

深度丨顾险峰：深度学习的几何观点——流形分布定律

德先生

17+阅读 · 2018年6月11日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于算子空间的微分流形及非线性偏微分方程的研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

Learning the Geometry of Data: A Mathematical Review of Shape Space Analysis

Arxiv

0+阅读 · 6月15日

Intrinsic Riemannian Cross-covariance for Manifold-valued Random Objects

Arxiv

0+阅读 · 6月10日

MAD: Manifold Attracted Diffusion

Arxiv

0+阅读 · 6月9日

Scale-Adaptive Generative Flows for Multiscale Scientific Data

Arxiv

0+阅读 · 6月4日

DiffUNet^2: Bidirectional Prediction, Probabilistic Generation and Collaborative Visual Discovery for Scientific Data

Arxiv

0+阅读 · 6月2日

Differentially private inference framework of Riemannian manifold data

Arxiv

0+阅读 · 5月14日

Diffusion Model's Generalization Can Be Characterized by Inductive Biases toward a Data-Dependent Ridge Manifold

Arxiv

0+阅读 · 5月13日

On Identifying Critical Network Edges via Analyzing Changes in Shapes (Curvatures)

Arxiv

0+阅读 · 5月11日

Evolutionary fine tuning of quantized convolution-based deep learning models

Arxiv

0+阅读 · 4月19日

A Review and Roadmap of Deep Causal Model from Different Causal Structures and Representations

Arxiv

13+阅读 · 2023年11月2日

VIP会员

文章信息

相关主题

最新内容

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

0+阅读 · 2分钟前

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

6+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

6+阅读 · 6月16日

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

10+阅读 · 6月16日

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

21+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

8+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

9+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

9+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

10+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

9+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

相关VIP内容

【阿姆斯特丹博士论文】表示学习中的信息理论

【阿姆斯特丹博士论文】表示学习中的信息理论

专知会员服务

23+阅读 · 2025年7月18日

西安交大最新《深度学习因果模型》综述论文，35页pdf涵盖292篇文献阐述三种数据范式因果模型

西安交大最新《深度学习因果模型》综述论文，35页pdf涵盖292篇文献阐述三种数据范式因果模型

专知会员服务

63+阅读 · 2023年11月5日

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

专知会员服务

18+阅读 · 2023年1月13日

几何观点下的深度学习

几何观点下的深度学习

专知会员服务

36+阅读 · 2022年12月13日

鄂维南院士：迈向机器学习的数学理论，66页ppt，附视频

鄂维南院士：迈向机器学习的数学理论，66页ppt，附视频

专知会员服务

83+阅读 · 2022年9月1日

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

专知会员服务

41+阅读 · 2022年8月28日

78页最新「深度学习现代数学」大综述论文，数学分析深度学习为何成功的理论

专知会员服务

109+阅读 · 2021年5月15日

124页哈佛数学系本科论文，带你了解流形学习的数学基础

124页哈佛数学系本科论文，带你了解流形学习的数学基础

专知会员服务

45+阅读 · 2020年12月23日

【报告推荐】三维及超几何处理中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Geometric Processing ）

【报告推荐】三维及超几何处理中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Geometric Processing ）

专知会员服务

12+阅读 · 2019年11月10日

992页《初等微积分：无穷小方法》(Elementary Calculus. An Infinitesimal Approach)书籍【附下载】

992页《初等微积分：无穷小方法》(Elementary Calculus. An Infinitesimal Approach)书籍【附下载】

专知会员服务

26+阅读 · 2019年10月28日

热门VIP内容

开通专知VIP会员享更多权益服务

多模态代码智能综述：从视觉输入到可执行代码系统

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

相关资讯

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

18+阅读 · 2022年9月4日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

GAN生成式对抗网络

23+阅读 · 2018年12月2日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

产业智能官

10+阅读 · 2018年6月23日

深度丨顾险峰：深度学习的几何观点——流形分布定律

深度丨顾险峰：深度学习的几何观点——流形分布定律

德先生

17+阅读 · 2018年6月11日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

相关论文

Learning the Geometry of Data: A Mathematical Review of Shape Space Analysis

Arxiv

0+阅读 · 6月15日

Intrinsic Riemannian Cross-covariance for Manifold-valued Random Objects

Arxiv

0+阅读 · 6月10日

MAD: Manifold Attracted Diffusion

Arxiv

0+阅读 · 6月9日

Scale-Adaptive Generative Flows for Multiscale Scientific Data

Arxiv

0+阅读 · 6月4日

DiffUNet^2: Bidirectional Prediction, Probabilistic Generation and Collaborative Visual Discovery for Scientific Data

Arxiv

0+阅读 · 6月2日

Differentially private inference framework of Riemannian manifold data

Arxiv

0+阅读 · 5月14日

Diffusion Model's Generalization Can Be Characterized by Inductive Biases toward a Data-Dependent Ridge Manifold

Arxiv

0+阅读 · 5月13日

On Identifying Critical Network Edges via Analyzing Changes in Shapes (Curvatures)

Arxiv

0+阅读 · 5月11日

Evolutionary fine tuning of quantized convolution-based deep learning models

Arxiv

0+阅读 · 4月19日

A Review and Roadmap of Deep Causal Model from Different Causal Structures and Representations

Arxiv

13+阅读 · 2023年11月2日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于算子空间的微分流形及非线性偏微分方程的研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员