Analogy is a central faculty of human intelligence, enabling abstract patterns discovered in one domain to be applied to another. Despite its central role in cognition, the mechanisms by which Transformers acquire and implement analogical reasoning remain poorly understood. In this work, inspired by the notion of functors in category theory, we formalize analogical reasoning as the inference of correspondences between entities across categories. Based on this formulation, we introduce synthetic tasks that evaluate the emergence of analogical reasoning under controlled settings. We find that the emergence of analogical reasoning is highly sensitive to data characteristics, optimization choices, and model scale. Through mechanistic analysis, we show that analogical reasoning in Transformers decomposes into two key components: (1) geometric alignment of relational structure in the embedding space, and (2) the application of a functor within the Transformer. These mechanisms enable models to transfer relational structure from one category to another, realizing analogy. Finally, we quantify these effects and find that the same trends are observed in pretrained LLMs. In doing so, we move analogy from an abstract cognitive notion to a concrete, mechanistically grounded phenomenon in modern neural networks.


翻译:类比是人类智能的核心能力,它使得在一个领域发现的抽象模式能够应用于另一个领域。尽管类比在认知中扮演着核心角色,但Transformer模型如何习得并实现类比推理的机制仍不甚明晰。受范畴论中函子概念的启发,本研究将类比推理形式化为跨范畴实体间对应关系的推断。基于此形式化框架,我们设计了一系列合成任务,用于评估受控环境下类比推理能力的涌现现象。研究发现,类比推理的涌现对数据特征、优化策略及模型规模高度敏感。通过机制分析,我们揭示了Transformer中的类比推理可分解为两个关键组成部分:(1) 嵌入空间中关系结构的几何对齐,以及(2) Transformer内部函子的应用。这些机制使得模型能够将关系结构从一个范畴迁移到另一个范畴,从而实现类比。最后,我们量化了这些效应,并发现相同的趋势在预训练大语言模型中同样存在。通过这项工作,我们将类比从抽象的认知概念转化为现代神经网络中具体且具有机制基础的现象。

0
下载
关闭预览

相关内容

类比推理亦称“类推”。推理的一种形式。根据两个对象在某些属性上相同或相似,通过比较而推断出它们在其他属性上也相同的推理过程。它是从观察个别现象开始的,因而近似归纳推理。但它又不是由特殊到一般,而是由特殊到特殊,因而又不同于归纳推理。分完全类推和不完全类推两种形式。完全类推是两个或两类事物在进行比较的方面完全相同时的类推;不完全类推是两个或两类事物在进行比较的方面不完全相同时的类推。
【博士论文】推理的表示学习:跨多样结构的泛化
专知会员服务
27+阅读 · 2024年10月20日
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
12+阅读 · 2019年1月8日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月20日
VIP会员
相关VIP内容
【博士论文】推理的表示学习:跨多样结构的泛化
专知会员服务
27+阅读 · 2024年10月20日
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
相关资讯
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
12+阅读 · 2019年1月8日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员