能量-熵正则化：最小循环Transformer的真正力量 (Energy-Entropy Regularization: The True Power of Minimal Looped Transformers) - 专知论文

会员服务 ·

0

损失 · Transformer · 正则化 · 深度架构 · 基准 ·

Energy-Entropy Regularization: The True Power of Minimal Looped Transformers

翻译：能量-熵正则化：最小循环Transformer的真正力量

from arxiv, 19 pages, 2 figures

Recent research suggests that looped Transformers have superior reasoning capabilities compared to standard deep architectures. Current approaches to training single-head looped architectures on benchmark tasks frequently fail or yield suboptimal performance due to a highly non-convex and irregular loss landscape. In these settings, optimization often stagnates in poor local minima and saddle points of the loss landscape, preventing the model from discovering the global minimum point. The internal mechanisms of these single-head looped transformer models remain poorly understood, and training them from scratch remains a significant challenge. In this paper, we propose a novel training framework that leverages Tsallis entropy and Hamiltonian dynamics to transform the geometry of the loss landscape. By treating the parameter updates as a physical flow, we successfully trained a single-head looped Transformer with model dimension $d = 8$ to solve induction head task with input sequence length of 1000 tokens. This success reveals the internal mechanism behind the superior reasoning capability.

翻译：近期研究表明，循环Transformer相较于标准深度架构具有更优越的推理能力。当前在基准任务上训练单头循环架构的方法常因高度非凸且不规则的损失曲面而失败或产生次优性能。在此类场景中，优化过程往往停滞于损失曲面的不良局部极小点和鞍点，阻碍模型发现全局最优点。这些单头循环Transformer模型的内部机制仍不甚明晰，从头训练此类模型仍是重大挑战。本文提出一种新颖的训练框架，利用Tsallis熵与哈密顿动力学来改变损失曲面的几何结构。通过将参数更新视为物理流动，我们成功训练了模型维度$d = 8$的单头循环Transformer，使其能够处理输入序列长度为1000个标记的归纳头任务。这一成功揭示了其卓越推理能力背后的内部机制。

0

相关内容

八问八答搞懂Transformer内部运作原理

八问八答搞懂Transformer内部运作原理

专知会员服务

35+阅读 · 2024年8月9日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

年度最佳? ETHZ最新《简化版Transformer》论文

年度最佳? ETHZ最新《简化版Transformer》论文

专知会员服务

50+阅读 · 2023年11月29日

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

专知会员服务

34+阅读 · 2023年9月13日

Transformer它就是个支持向量机

Transformer它就是个支持向量机

专知会员服务

38+阅读 · 2023年9月7日

144页ppt！《Transformers》全面讲解，附视频

144页ppt！《Transformers》全面讲解，附视频

专知会员服务

118+阅读 · 2023年1月1日

Google最新《高效Transformers》2022综述大全，阐述九大类提升Transformers效率方式

Google最新《高效Transformers》2022综述大全，阐述九大类提升Transformers效率方式

专知会员服务

97+阅读 · 2022年3月18日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

从头开始了解Transformer

从头开始了解Transformer

AI科技评论

25+阅读 · 2019年8月28日

百闻不如一码！手把手教你用Python搭一个Transformer

百闻不如一码！手把手教你用Python搭一个Transformer

大数据文摘

18+阅读 · 2019年4月22日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

12+阅读 · 2019年1月8日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

最大熵原理（一）

最大熵原理（一）

深度学习探索

12+阅读 · 2017年8月3日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于逆动力学的汽车最速操纵性能评价与优化

国家自然科学基金

0+阅读 · 2015年12月31日

力-磁-热循环载荷作用下Ni-Mn-Ga单晶材料变形理论及机理

国家自然科学基金

0+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

非线性动力系统的最简正规形及其相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Inner Loop Inference for Pretrained Transformers: Unlocking Latent Capabilities Without Training

Arxiv

0+阅读 · 2月16日

Block-Recurrent Dynamics in Vision Transformers

Arxiv

0+阅读 · 2月10日

Thermodynamic Isomorphism of Transformers: A Lagrangian Approach to Attention Dynamics

Arxiv

0+阅读 · 2月9日

Revisiting the Generic Transformer: Deconstructing a Strong Baseline for Time Series Foundation Models

Arxiv

0+阅读 · 2月6日

Tabula RASA: Exposing and Breaking the Relational Bottleneck in Transformers

Arxiv

0+阅读 · 2月4日

Entropy Meets Importance: A Unified Head Importance-Entropy Score for Stable and Efficient Transformer Pruning

Arxiv

0+阅读 · 2月2日

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

Arxiv

0+阅读 · 1月29日

Rate-Distortion Optimization for Transformer Inference

Arxiv

0+阅读 · 1月29日

Neural Algorithmic Reasoning for Hypergraphs with Looped Transformers

Arxiv

0+阅读 · 1月24日

PGOT: A Physics-Geometry Operator Transformer for Complex PDEs

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

相关VIP内容

八问八答搞懂Transformer内部运作原理

八问八答搞懂Transformer内部运作原理

专知会员服务

35+阅读 · 2024年8月9日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

年度最佳? ETHZ最新《简化版Transformer》论文

年度最佳? ETHZ最新《简化版Transformer》论文

专知会员服务

50+阅读 · 2023年11月29日

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

专知会员服务

34+阅读 · 2023年9月13日

Transformer它就是个支持向量机

Transformer它就是个支持向量机

专知会员服务

38+阅读 · 2023年9月7日

144页ppt！《Transformers》全面讲解，附视频

144页ppt！《Transformers》全面讲解，附视频

专知会员服务

118+阅读 · 2023年1月1日

Google最新《高效Transformers》2022综述大全，阐述九大类提升Transformers效率方式

Google最新《高效Transformers》2022综述大全，阐述九大类提升Transformers效率方式

专知会员服务

97+阅读 · 2022年3月18日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

从头开始了解Transformer

从头开始了解Transformer

AI科技评论

25+阅读 · 2019年8月28日

百闻不如一码！手把手教你用Python搭一个Transformer

百闻不如一码！手把手教你用Python搭一个Transformer

大数据文摘

18+阅读 · 2019年4月22日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

12+阅读 · 2019年1月8日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

最大熵原理（一）

最大熵原理（一）

深度学习探索

12+阅读 · 2017年8月3日

相关论文

Inner Loop Inference for Pretrained Transformers: Unlocking Latent Capabilities Without Training

Arxiv

0+阅读 · 2月16日

Block-Recurrent Dynamics in Vision Transformers

Arxiv

0+阅读 · 2月10日

Thermodynamic Isomorphism of Transformers: A Lagrangian Approach to Attention Dynamics

Arxiv

0+阅读 · 2月9日

Revisiting the Generic Transformer: Deconstructing a Strong Baseline for Time Series Foundation Models

Arxiv

0+阅读 · 2月6日

Tabula RASA: Exposing and Breaking the Relational Bottleneck in Transformers

Arxiv

0+阅读 · 2月4日

Entropy Meets Importance: A Unified Head Importance-Entropy Score for Stable and Efficient Transformer Pruning

Arxiv

0+阅读 · 2月2日

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

Arxiv

0+阅读 · 1月29日

Rate-Distortion Optimization for Transformer Inference

Arxiv

0+阅读 · 1月29日

Neural Algorithmic Reasoning for Hypergraphs with Looped Transformers

Arxiv

0+阅读 · 1月24日

PGOT: A Physics-Geometry Operator Transformer for Complex PDEs

Arxiv

0+阅读 · 1月20日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于逆动力学的汽车最速操纵性能评价与优化

国家自然科学基金

0+阅读 · 2015年12月31日

力-磁-热循环载荷作用下Ni-Mn-Ga单晶材料变形理论及机理

国家自然科学基金

0+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

非线性动力系统的最简正规形及其相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员