训练轨迹感知的令牌选择 (Training-Trajectory-Aware Token Selection) - 专知论文

会员服务 ·

0

令牌 · 蒸馏 · Qwen3 · 置信度 · 性能退化 ·

Training-Trajectory-Aware Token Selection

翻译：训练轨迹感知的令牌选择

Zhanming Shen,Jiaqi Hu,Zeyu Qin,Hao Chen,Wentao Ye,Zenan Huang,Yihong Zhuang,Guoshan Lu,Junlin Zhou,Junbo Zhao

Efficient distillation is a key pathway for converting expensive reasoning capability into deployable efficiency, yet in the frontier regime where the student already has strong reasoning ability, naive continual distillation often yields limited gains or even degradation. We observe a characteristic training phenomenon: even as loss decreases monotonically, all performance metrics can drop sharply at almost the same bottleneck, before gradually recovering. We further uncover a token-level mechanism: confidence bifurcates into steadily increasing Imitation-Anchor Tokens that quickly anchor optimization and other yet-to-learn tokens whose confidence is suppressed until after the bottleneck. And the characteristic that these two types of tokens cannot coexist is the root cause of the failure in continual distillation. To this end, we propose Training-Trajectory-Aware Token Selection (T3S) to reconstruct the training objective at the token level, clearing the optimization path for yet-to-learn tokens. T3 yields consistent gains in both AR and dLLM settings: with only hundreds of examples, Qwen3-8B surpasses DeepSeek-R1 on competitive reasoning benchmarks, Qwen3-32B approaches Qwen3-235B, and T3-trained LLaDA-2.0-Mini exceeds its AR baseline, achieving state-of-the-art performance among all of 16B-scale no-think models.

翻译：高效蒸馏是将昂贵的推理能力转化为可部署效率的关键途径，然而在模型已具备较强推理能力的前沿场景中，简单的持续蒸馏往往收效甚微甚至导致性能退化。我们观察到一种特征性的训练现象：即使损失函数单调下降，所有性能指标仍可能在几乎同一瓶颈处急剧下降，之后才逐渐恢复。我们进一步揭示了令牌层面的机制：置信度分化为稳定增长的模仿锚定令牌（其能快速锚定优化过程）与其他待学习令牌（其置信度在瓶颈期前受到抑制）。这两类令牌无法共存的特征是持续蒸馏失败的根本原因。为此，我们提出训练轨迹感知的令牌选择方法，在令牌层面重构训练目标，为待学习令牌清除优化路径。该方法在自回归和蒸馏大语言模型设置中均取得稳定增益：仅使用数百个示例，Qwen3-8B在竞争性推理基准上超越DeepSeek-R1，Qwen3-32B逼近Qwen3-235B，而经T3训练的LLaDA-2.0-Mini超越了其自回归基线，在所有16B规模的无思考模型中达到最先进的性能水平。

0

相关内容

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

专知会员服务

14+阅读 · 2025年8月15日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

专知会员服务

31+阅读 · 2024年8月3日

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

专知会员服务

23+阅读 · 2023年7月20日

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

专知会员服务

21+阅读 · 2023年7月16日

【KDD2023】基于大型图谱语料库的图感知语言模型预训练可以帮助多种图应用,12页pdf

【KDD2023】基于大型图谱语料库的图感知语言模型预训练可以帮助多种图应用,12页pdf

专知会员服务

31+阅读 · 2023年6月7日

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

专知会员服务

58+阅读 · 2023年4月21日

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

专知会员服务

58+阅读 · 2022年12月31日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

BERT-预训练的强大

BERT-预训练的强大

微信AI

61+阅读 · 2019年3月7日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

如何将知识图谱特征学习应用到推荐系统？

如何将知识图谱特征学习应用到推荐系统？

AI100

16+阅读 · 2018年6月10日

基于飞行学员情感生理信号的训练飞行态势监控研究

国家自然科学基金

18+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

在轨航天器诊断策略自动构建与学习调控方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

不确定与动态信息环境下基于预规划-重规划集成建模的应急物流选址-调度鲁棒优化研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于多视图协同训练的高光谱遥感影像分类

国家自然科学基金

3+阅读 · 2014年12月31日

交通信息对驾驶员路径选择行为及交通流特性影响的研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

Arxiv

0+阅读 · 2月18日

Accelerating Diffusion Planners in Offline RL via Reward-Aware Consistency Trajectory Distillation

Arxiv

0+阅读 · 2月6日

Multi-Token Prediction via Self-Distillation

Arxiv

0+阅读 · 2月5日

Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

Arxiv

0+阅读 · 2月3日

Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings

Arxiv

0+阅读 · 1月30日

TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Ditching

Arxiv

0+阅读 · 1月27日

Dynamic Thinking-Token Selection for Efficient Reasoning in Large Reasoning Models

Arxiv

0+阅读 · 1月26日

R$^2$PO: Decoupling Training Trajectories from Inference Responses for LLM Reasoning

Arxiv

0+阅读 · 1月23日

Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter

Arxiv

0+阅读 · 1月21日

Skill-Aware Data Selection and Fine-Tuning for Data-Efficient Reasoning Distillation

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

专知会员服务

2+阅读 · 今天14:46

内省扩散语言模型

内省扩散语言模型

专知会员服务

1+阅读 · 今天14:42

美伊停火协议：评估、各方反应及美国会面临的问题

美伊停火协议：评估、各方反应及美国会面临的问题

专知会员服务

3+阅读 · 今天13:00

国外反无人机系统与技术动态

国外反无人机系统与技术动态

专知会员服务

2+阅读 · 今天12:48

世界无人无线电情报系统经验分析与实验实现（研究论文）

世界无人无线电情报系统经验分析与实验实现（研究论文）

专知会员服务

3+阅读 · 今天12:44

大规模作战行动中的战术作战评估（研究论文）

大规模作战行动中的战术作战评估（研究论文）

专知会员服务

3+阅读 · 今天12:21

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

专知会员服务

3+阅读 · 今天12:13

未来的海战无人自主系统

未来的海战无人自主系统

专知会员服务

2+阅读 · 今天12:05

美军多域作战现状分析：战略、概念还是幻想？

美军多域作战现状分析：战略、概念还是幻想？

专知会员服务

4+阅读 · 今天11:52

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

专知会员服务

18+阅读 · 今天7:12

无人机与反无人机系统（书籍）

无人机与反无人机系统（书籍）

专知会员服务

16+阅读 · 今天6:45

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

专知会员服务

6+阅读 · 今天6:12

美陆军2026条令：安全与机动支援

美陆军2026条令：安全与机动支援

专知会员服务

6+阅读 · 今天5:49

【牛津博士论文】以语言为接口的医学影像表示学习

【牛津博士论文】以语言为接口的医学影像表示学习

专知会员服务

12+阅读 · 4月13日

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

专知会员服务

10+阅读 · 4月13日

相关VIP内容

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

专知会员服务

14+阅读 · 2025年8月15日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

专知会员服务

31+阅读 · 2024年8月3日

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

专知会员服务

23+阅读 · 2023年7月20日

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

专知会员服务

21+阅读 · 2023年7月16日

【KDD2023】基于大型图谱语料库的图感知语言模型预训练可以帮助多种图应用,12页pdf

【KDD2023】基于大型图谱语料库的图感知语言模型预训练可以帮助多种图应用,12页pdf

专知会员服务

31+阅读 · 2023年6月7日

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

专知会员服务

58+阅读 · 2023年4月21日

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

专知会员服务

58+阅读 · 2022年12月31日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

热门VIP内容

开通专知VIP会员享更多权益服务

内省扩散语言模型

国外反无人机系统与技术动态

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

美伊停火协议：评估、各方反应及美国会面临的问题

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

BERT-预训练的强大

BERT-预训练的强大

微信AI

61+阅读 · 2019年3月7日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

如何将知识图谱特征学习应用到推荐系统？

如何将知识图谱特征学习应用到推荐系统？

AI100

16+阅读 · 2018年6月10日

相关论文

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

Arxiv

0+阅读 · 2月18日

Accelerating Diffusion Planners in Offline RL via Reward-Aware Consistency Trajectory Distillation

Arxiv

0+阅读 · 2月6日

Multi-Token Prediction via Self-Distillation

Arxiv

0+阅读 · 2月5日

Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

Arxiv

0+阅读 · 2月3日

Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings

Arxiv

0+阅读 · 1月30日

TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Ditching

Arxiv

0+阅读 · 1月27日

Dynamic Thinking-Token Selection for Efficient Reasoning in Large Reasoning Models

Arxiv

0+阅读 · 1月26日

R$^2$PO: Decoupling Training Trajectories from Inference Responses for LLM Reasoning

Arxiv

0+阅读 · 1月23日

Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter

Arxiv

0+阅读 · 1月21日

Skill-Aware Data Selection and Fine-Tuning for Data-Efficient Reasoning Distillation

Arxiv

0+阅读 · 1月15日

相关基金

基于飞行学员情感生理信号的训练飞行态势监控研究

国家自然科学基金

18+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

在轨航天器诊断策略自动构建与学习调控方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

不确定与动态信息环境下基于预规划-重规划集成建模的应急物流选址-调度鲁棒优化研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于多视图协同训练的高光谱遥感影像分类

国家自然科学基金

3+阅读 · 2014年12月31日

交通信息对驾驶员路径选择行为及交通流特性影响的研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员