理解下一代标记预测器中看似无用特征的出现 (Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors) - 专知论文

会员服务 ·

0

语言模型 · Transformer · 时标 · 冗余 · 识别 ·

Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors

翻译：理解下一代标记预测器中看似无用特征的出现

Mark Rofin,Jalal Naghiyev,Michael Hahn

from arxiv, ICLR 2026

Trained Transformers have been shown to compute abstract features that appear redundant for predicting the immediate next token. We identify which components of the gradient signal from the next-token prediction objective give rise to this phenomenon, and we propose a method to estimate the influence of those components on the emergence of specific features. After validating our approach on toy tasks, we use it to interpret the origins of the world model in OthelloGPT and syntactic features in a small language model. Finally, we apply our framework to a pretrained LLM, showing that features with extremely high or low influence on future tokens tend to be related to formal reasoning domains such as code. Overall, our work takes a step toward understanding hidden features of Transformers through the lens of their development during training.

翻译：经过训练的Transformer模型已被证明能够计算出对于预测下一个即时标记而言似乎冗余的抽象特征。我们识别了来自下一标记预测目标的梯度信号中哪些成分导致了这一现象，并提出了一种方法来估计这些成分对特定特征出现的影响。在玩具任务上验证我们的方法后，我们将其用于解释OthelloGPT中世界模型的起源以及小型语言模型中句法特征的成因。最后，我们将该框架应用于预训练的大型语言模型，发现对未来标记具有极高或极低影响力的特征往往与代码等形式推理领域相关。总体而言，我们的工作通过训练过程中特征发展的视角，朝着理解Transformer隐藏特征的方向迈出了一步。

0

相关内容

语言模型

面向多模态智能的下一个Token预测：综述

面向多模态智能的下一个Token预测：综述

专知会员服务

26+阅读 · 2024年12月30日

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

专知会员服务

34+阅读 · 2023年9月13日

21种Transformers目标检测方法！德国人工智能研究中心等最新《Transformers 2D目标检测》综述

21种Transformers目标检测方法！德国人工智能研究中心等最新《Transformers 2D目标检测》综述

专知会员服务

57+阅读 · 2023年6月9日

【ICML2022】XAI for Transformers:通过保守传播更好的解释

【ICML2022】XAI for Transformers:通过保守传播更好的解释

专知会员服务

16+阅读 · 2022年7月19日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

从头开始了解Transformer

从头开始了解Transformer

AI科技评论

25+阅读 · 2019年8月28日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

12+阅读 · 2019年1月8日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

机器之心

12+阅读 · 2018年4月16日

特征工程的特征理解（一）

特征工程的特征理解（一）

机器学习研究会

10+阅读 · 2017年10月23日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

点云变形序列特征提取及可监测性评价研究

国家自然科学基金

1+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

几类含∞-Laplace算子的特征值问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Fine-Tuning Without Forgetting In-Context Learning: A Theoretical Analysis of Linear Attention Models

Arxiv

0+阅读 · 2月26日

In-Context Algebra

Arxiv

0+阅读 · 2月25日

Test-Time Training Provably Improves Transformers as In-context Learners

Arxiv

0+阅读 · 2月21日

Representation Collapse in Machine Translation Through the Lens of Angular Dispersion

Arxiv

0+阅读 · 2月19日

Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

Arxiv

0+阅读 · 2月18日

Statistical benchmarking of transformer models in low signal-to-noise time-series forecasting

Arxiv

0+阅读 · 2月10日

Patch-Level Tokenization with CNN Encoders and Attention for Improved Transformer Time-Series Forecasting

Arxiv

0+阅读 · 2月10日

Revisiting [CLS] and Patch Token Interaction in Vision Transformers

Arxiv

0+阅读 · 2月9日

In-context Time Series Predictor

Arxiv

0+阅读 · 2月5日

To See Far, Look Close: Evolutionary Forecasting for Long-term Time Series

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

0+阅读 · 33分钟前

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

3+阅读 · 57分钟前

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

6+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

3+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

2+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

16+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

3+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

7+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

13+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

3+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

5+阅读 · 4月16日

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

4+阅读 · 4月16日

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

6+阅读 · 4月16日

相关VIP内容

面向多模态智能的下一个Token预测：综述

面向多模态智能的下一个Token预测：综述

专知会员服务

26+阅读 · 2024年12月30日

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

专知会员服务

34+阅读 · 2023年9月13日

21种Transformers目标检测方法！德国人工智能研究中心等最新《Transformers 2D目标检测》综述

21种Transformers目标检测方法！德国人工智能研究中心等最新《Transformers 2D目标检测》综述

专知会员服务

57+阅读 · 2023年6月9日

【ICML2022】XAI for Transformers:通过保守传播更好的解释

【ICML2022】XAI for Transformers:通过保守传播更好的解释

专知会员服务

16+阅读 · 2022年7月19日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

（中文）AUKUS第二支柱中的人工智能与自主性方案

《反小型无人机系统的雷达高度估计相干干扰研究》60页

（中文）以机器速度作战：来自Maven特遣队主任的见解

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

从头开始了解Transformer

从头开始了解Transformer

AI科技评论

25+阅读 · 2019年8月28日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

12+阅读 · 2019年1月8日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

机器之心

12+阅读 · 2018年4月16日

特征工程的特征理解（一）

特征工程的特征理解（一）

机器学习研究会

10+阅读 · 2017年10月23日

相关论文

Fine-Tuning Without Forgetting In-Context Learning: A Theoretical Analysis of Linear Attention Models

Arxiv

0+阅读 · 2月26日

In-Context Algebra

Arxiv

0+阅读 · 2月25日

Test-Time Training Provably Improves Transformers as In-context Learners

Arxiv

0+阅读 · 2月21日

Representation Collapse in Machine Translation Through the Lens of Angular Dispersion

Arxiv

0+阅读 · 2月19日

Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

Arxiv

0+阅读 · 2月18日

Statistical benchmarking of transformer models in low signal-to-noise time-series forecasting

Arxiv

0+阅读 · 2月10日

Patch-Level Tokenization with CNN Encoders and Attention for Improved Transformer Time-Series Forecasting

Arxiv

0+阅读 · 2月10日

Revisiting [CLS] and Patch Token Interaction in Vision Transformers

Arxiv

0+阅读 · 2月9日

In-context Time Series Predictor

Arxiv

0+阅读 · 2月5日

To See Far, Look Close: Evolutionary Forecasting for Long-term Time Series

Arxiv

0+阅读 · 2月2日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

点云变形序列特征提取及可监测性评价研究

国家自然科学基金

1+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

几类含∞-Laplace算子的特征值问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员