We study visual representation learning from a structural and topological perspective. We begin from a single hypothesis: that visual understanding presupposes a semantic language for vision, in which many perceptual observations correspond to a small number of discrete semantic states. Together with widely assumed premises on transferability and abstraction in representation learning, this hypothesis implies that the visual observation space must be organized in a fiber bundle like structure, where nuisance variation populates fibers and semantics correspond to a quotient base space. From this structure we derive two theoretical consequences. First, the semantic quotient $X/G$ is not a submanifold of $X$ and cannot be obtained through smooth deformation alone, semantic invariance requires a non-homeomorphic, discriminative target, for example, supervision via labels, cross instance identification, or multimodal alignment that supplies explicit semantic equivalence. Second, we show that approximating the quotient also places structural demands on the model architecture. Semantic abstraction requires not only an external semantic target, but a representation mechanism capable of supporting topology change: an expand-and-snap process in which the manifold is first geometrically expanded to separate structure and then collapsed to form discrete semantic regions. We emphasize that these results are interpretive rather than prescriptive: the framework provides a topological lens that aligns with empirical regularities observed in large-scale discriminative and multimodal models, and with classical principles in statistical learning theory.


翻译:我们从结构与拓扑的视角研究视觉表征学习。我们从一个基本假说出发:视觉理解预设了一种视觉语义语言,其中大量感知观测对应于少量离散语义状态。结合表征学习中广泛假设的可迁移性与抽象性前提,该假说意味着视觉观测空间必须组织成纤维丛状结构,其中干扰变化分布于纤维,而语义对应于商基空间。由此结构我们推导出两个理论推论。首先,语义商空间 $X/G$ 并非 $X$ 的子流形,且无法仅通过光滑形变获得——语义不变性需要非同胚的判别性目标,例如通过标签监督、跨实例识别或多模态对齐提供的显式语义等价。其次,我们证明逼近该商空间也对模型架构提出了结构性要求。语义抽象不仅需要外部语义目标,还需要支持拓扑变化的表征机制:即“扩展-坍缩”过程,其中流形先经几何扩展以分离结构,再坍缩形成离散语义区域。我们强调这些结果是解释性而非规范性的:该框架提供了一个拓扑视角,其与大规模判别模型和多模态模型中观察到的经验规律相吻合,也与统计学习理论的经典原理相一致。

0
下载
关闭预览

相关内容

【AAAI2022】基于变分信息瓶颈的图结构学习
专知会员服务
20+阅读 · 2021年12月18日
专知会员服务
23+阅读 · 2021年10月6日
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月6日
VIP会员
相关VIP内容
【AAAI2022】基于变分信息瓶颈的图结构学习
专知会员服务
20+阅读 · 2021年12月18日
专知会员服务
23+阅读 · 2021年10月6日
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
相关资讯
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员