Symmetry in language statistics shapes the geometry of model representations - 专知论文

会员服务 ·

0

结构 · 表示 · 几何结构 · 嵌入 · 共现 ·

Symmetry in language statistics shapes the geometry of model representations

翻译：语言统计中的对称性塑造模型表示的几何结构

Dhruva Karkada,Daniel J. Korchinski,Andres Nava,Matthieu Wyart,Yasaman Bahri

Although learned representations underlie neural networks' success, their fundamental properties remain poorly understood. A striking example is the emergence of simple geometric structures in LLM representations: for example, calendar months organize into a circle, years form a smooth one-dimensional manifold, and cities' latitudes and longitudes can be decoded by a linear probe. We show that the statistics of language exhibit a translation symmetry -- e.g., the co-occurrence probability of two months depends only on the time interval between them -- and we prove that the latter governs the aforementioned geometric structures in high-dimensional word embedding models. Moreover, we find that these structures persist even when the co-occurrence statistics are strongly perturbed (for example, by removing all sentences in which two months appear together) and at moderate embedding dimension. We show that this robustness naturally emerges if the co-occurrence statistics are collectively controlled by an underlying continuous latent variable. We empirically validate this theoretical framework in word embedding models, text embedding models, and large language models.

翻译：尽管学习到的表示是神经网络成功的基础，但其基本性质仍鲜为人知。一个显著的例子是大型语言模型表示中出现的简单几何结构：例如，日历月份组织成一个圆环，年份形成平滑的一维流形，城市的经纬度可以通过线性探针解码。我们证明语言统计表现出平移对称性——例如，两个月份共现的概率仅取决于它们之间的时间间隔——并且我们证明了后者支配着高维词嵌入模型中的上述几何结构。此外，我们发现即使共现统计受到强烈扰动（例如，通过删除所有两个月份同时出现的句子）且在中等嵌入维度下，这些结构仍然持续存在。我们证明，如果共现统计由潜在的连续隐变量共同控制，这种鲁棒性会自然涌现。我们在词嵌入模型、文本嵌入模型和大型语言模型中实证验证了这一理论框架。

0

相关内容

【博士论文】从语言模型到宇宙结构：一种几何视角的探析

【博士论文】从语言模型到宇宙结构：一种几何视角的探析

专知会员服务

22+阅读 · 3月4日

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

专知会员服务

8+阅读 · 2025年11月2日

面向统计学家的大型语言模型概述

面向统计学家的大型语言模型概述

专知会员服务

32+阅读 · 2025年3月16日

【阿姆斯特丹博士论文】在语言模型中寻找结构

【阿姆斯特丹博士论文】在语言模型中寻找结构

专知会员服务

26+阅读 · 2024年11月27日

【哈佛大学博士论文】《大语言模型的结构建模》，132页pdf

【哈佛大学博士论文】《大语言模型的结构建模》，132页pdf

专知会员服务

46+阅读 · 2024年1月25日

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

专知会员服务

58+阅读 · 2023年11月11日

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

专知会员服务

38+阅读 · 2023年4月11日

知识图谱如何融合大模型？【斯坦福博士论文】利用结构化数据实现鲁棒和自适应的自然语言表示，141页pdf

知识图谱如何融合大模型？【斯坦福博士论文】利用结构化数据实现鲁棒和自适应的自然语言表示，141页pdf

专知会员服务

89+阅读 · 2023年4月3日

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

专知会员服务

21+阅读 · 2020年6月4日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

18+阅读 · 2022年9月4日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

清华大学唐杰老师WWW2019网络表示学习教程-NE、GNN，500页ppt

清华大学唐杰老师WWW2019网络表示学习教程-NE、GNN，500页ppt

专知

71+阅读 · 2019年5月17日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

大尺度变形的三维几何模型的对应关系和分割问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

CFM: Language-aligned Concept Foundation Model for Vision

Arxiv

0+阅读 · 3月17日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 3月17日

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Arxiv

0+阅读 · 3月10日

Geometry Distributions

Arxiv

0+阅读 · 2月22日

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Arxiv

0+阅读 · 2月18日

Relative Geometry of Neural Forecasters: Linking Accuracy and Alignment in Learned Latent Geometry

Arxiv

0+阅读 · 2月17日

Algorithmic Primitives and Compositional Geometry of Reasoning in Language Models

Arxiv

0+阅读 · 2月16日

A Rule-based Computational Model for Gaidhlig Morphology

Arxiv

0+阅读 · 2月12日

Training-Driven Representational Geometry Modularization Predicts Brain Alignment in Language Models

Arxiv

0+阅读 · 2月7日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

10+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

10+阅读 · 4月25日

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

9+阅读 · 4月25日

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

19+阅读 · 4月25日

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

8+阅读 · 4月25日

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

12+阅读 · 4月25日

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

9+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

13+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

9+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

7+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

8+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

11+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

16+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

13+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

6+阅读 · 4月24日

相关VIP内容

【博士论文】从语言模型到宇宙结构：一种几何视角的探析

【博士论文】从语言模型到宇宙结构：一种几何视角的探析

专知会员服务

22+阅读 · 3月4日

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

专知会员服务

8+阅读 · 2025年11月2日

面向统计学家的大型语言模型概述

面向统计学家的大型语言模型概述

专知会员服务

32+阅读 · 2025年3月16日

【阿姆斯特丹博士论文】在语言模型中寻找结构

【阿姆斯特丹博士论文】在语言模型中寻找结构

专知会员服务

26+阅读 · 2024年11月27日

【哈佛大学博士论文】《大语言模型的结构建模》，132页pdf

【哈佛大学博士论文】《大语言模型的结构建模》，132页pdf

专知会员服务

46+阅读 · 2024年1月25日

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

专知会员服务

58+阅读 · 2023年11月11日

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

专知会员服务

38+阅读 · 2023年4月11日

知识图谱如何融合大模型？【斯坦福博士论文】利用结构化数据实现鲁棒和自适应的自然语言表示，141页pdf

知识图谱如何融合大模型？【斯坦福博士论文】利用结构化数据实现鲁棒和自适应的自然语言表示，141页pdf

专知会员服务

89+阅读 · 2023年4月3日

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

专知会员服务

21+阅读 · 2020年6月4日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

18+阅读 · 2022年9月4日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

清华大学唐杰老师WWW2019网络表示学习教程-NE、GNN，500页ppt

清华大学唐杰老师WWW2019网络表示学习教程-NE、GNN，500页ppt

专知

71+阅读 · 2019年5月17日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

相关论文

CFM: Language-aligned Concept Foundation Model for Vision

Arxiv

0+阅读 · 3月17日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 3月17日

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Arxiv

0+阅读 · 3月10日

Geometry Distributions

Arxiv

0+阅读 · 2月22日

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Arxiv

0+阅读 · 2月18日

Relative Geometry of Neural Forecasters: Linking Accuracy and Alignment in Learned Latent Geometry

Arxiv

0+阅读 · 2月17日

Algorithmic Primitives and Compositional Geometry of Reasoning in Language Models

Arxiv

0+阅读 · 2月16日

A Rule-based Computational Model for Gaidhlig Morphology

Arxiv

0+阅读 · 2月12日

Training-Driven Representational Geometry Modularization Predicts Brain Alignment in Language Models

Arxiv

0+阅读 · 2月7日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 2月6日

相关基金

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

大尺度变形的三维几何模型的对应关系和分割问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员