Transformer 的 Softmax 注意力机制虽然强大,但其二次复杂度限制了高分辨率图像和长序列生成任务的可扩展性。本文提出 T⁵(Transformer To Test-Time Training)——一种基于测试时训练(TTT)的线性复杂度架构,可直接继承预训练 Softmax 模型的全部权重,仅需极少的微调即可恢复原有性能。在 Stable Diffusion 3.5 上,T⁵ 仅用 4×H20 GPU 上约 1 小时的微调,即在图像质量上与原始模型持平,同时实现 1.32×(1K分辨率)和 1.47×(2K分辨率) 的推理加速。
图1:SD3.5-T⁵ 生成的 2K 图像(左)和 1K 图像(右)
Transformer 的 Softmax 注意力计算复杂度为 O(N²),输入序列 N 增大时计算和内存开销呈平方级增长。这在处理高分辨率图像或长上下文生成时成为严重瓶颈。
为此,研究者提出了多种线性复杂度注意力机制。然而,训练一个线性模型不仅成本高昂,更核心的挑战在于:如何将已有的预训练 Softmax 模型高效转换为线性模型?现有的方法存在以下问题:
本文从结构对齐和表征对齐两个角度系统性地解决这一转换难题。
本文的核心洞察是:Softmax 注意力可以重写为一个双层动态 MLP:
Attn(q, K, V) = σ(q · K^T) · V = σ(q · W1^dyn) · W2^dyn
其中 W1^dyn = K^T, W2^dyn = V,σ 是 Softmax。每个 query 都经过一个由 K、V 动态构建的双层非线性 MLP。
相比之下,标准线性注意力退化为单层动态变换:
LinearAttn(q) = φ(q) · (φ(K)^T · V)
这种单层线性结构缺乏 Softmax 的非线性表达能力。
TTT 的桥梁作用:测试时训练(TTT)维护一个内部模型 f_W,通过梯度下降在线更新其参数。当内部模型选用双层 MLP 时,TTT 的输出具有与 Softmax 注意力完全相同的结构:
TTT(q) = σ(q · W1') · W2'
图2:Softmax Attention 与双层 TTT 的结构相似性,使得权重直接继承和快速适应成为可能
这一结构对等性使 TTT 可以直接继承预训练 Softmax 模型的全部权重(包括 Q/K/V/O 投影、MLP、归一化层等),而 TTT 内部的可学习参数(W1, W2)则提供了进一步的适应能力。
实验结果验证了这一设计:线性注意力在冻结预训练权重时 Top-1 仅 3.71%,而 TTT-SwiGLU 可达 67.33%,充分证明了 TTT 的结构兼容性。
即使结构兼容,直接继承权重后微调仍会出现训练发散(NaN)。原因是:
Softmax 对 Key 的偏移具有不变性——给所有 Key 加上相同的偏移向量 δ,注意力权重不变。而 TTT 不具备这种不变性。预训练模型中的 Key 存在显著的偏移(偏移比率 ≈0.5),这会导致 TTT 的梯度爆炸。
图3:Softmax 可吸收 Key 偏移而 TTT 不能;预训练 ViT 的 Key 偏移比率约 0.5,随机初始化仅 0.07
解决方案:在 TTT 计算前对 Key 应用实例归一化(Instance Normalization):
k̂_i = (k_i - k̄) / sqrt(1/N · Σ(k_j - k̄)² + ε)
该方法去除了 Key 的均值偏移,模拟 Softmax 的偏移不变性。实验表明,去掉均值减法的消融实验立即导致 NaN,而去掉标准差缩放则基本不影响精度。
Softmax 注意力天然具有强局部偏好——相邻 token 间的注意力权重更高。而 TTT 的隐式注意力图显示其全局建模能力更强,局部性偏弱。
图4:隐式注意力分数可视化。Softmax 有强局部偏置,TTT 偏全局建模,DWCQK 增强了局部性
解决方案:在 Q 和 K 上应用深度可分离卷积(DWCQK):
q̂ = q + DWC(q), k̂ = k + DWC(k)
这直接注入了局部性先验,且当卷积后的 Key 用于 TTT 内部学习目标时,局部窗口的 Key 能联合预测 Value,扩大了感受野。
此外,TTT 还可选地与**邻域注意力(NAT)**结合,进一步提升局部建模能力。
图5:不同分辨率下的 FLOPs 对比。T⁵ 的计算效率优势在高分辨率下更加明显
在 DeiT-Tiny/Small 上,T⁵ 仅用 30 轮微调(10% 的训练量)即可恢复到接近基线的性能:
| 模型 | 训练轮数 | 比例 | Top-1 |
|---|---|---|---|
| DeiT-T† | 300 | 100% | 72.05 |
| T⁵-T | 30 | 10% | 71.19 |
| T⁵⁺-T | 30 | 10% | 72.06 |
对比其他线性化方法,T⁵ 在相同设置下显著优于标准线性注意力、LiT、CLEAR 和 Hedgehog。
在 DiT-XL/2 上,T⁵(称为 DiT⁵)仅用 8 轮微调(0.57% 原始训练量) 即取得 FID 2.48 的优异成绩,无需蒸馏或复杂初始化策略:
| 模型 | 训练轮数 | 微调比例 | FID↓ | 蒸馏? |
|---|---|---|---|---|
| DiT-XL/2 | 1400 | - | 2.27 | - |
| DiT⁵-XL/2 | 8 | 0.57% | 2.48 | ✗ |
| LiT-XL/2 | 280 | 20% | 2.32 | ✓ |
| Hyena-Y | ~28† | 2% | 2.72 | ✗ |
这是本文最令人印象深刻的实验。将 SD3.5-Medium 中约 50% 的 Transformer 模块替换为 TTT 块,得到 SD3.5-T⁵:
| 方法 | DPG-Bench | GenEval | 延迟(1K) | 延迟(2K) |
|---|---|---|---|---|
| SD3.5-Medium | 83.83 | 0.66 | 25s | 231s |
| SD3.5-FT | 82.74 | 0.70 | 25s | 231s |
| SD3.5-T⁵ | 84.43 | 0.69 | 19s | 157s |
本文的核心贡献在于从结构角度解决了 Transformer 线性化的难题。T⁵ 通过利用 TTT 与 Softmax 注意力之间的天然结构对等性,实现了:
这一工作的意义不仅在于提供了一个高效的线性化方案,更在于揭示了 Softmax 注意力与 TTT 之间深层结构联系的见解——为未来大规模模型的高效部署提供了新的思路。
由专知整理,原文发表于 ICML 2026,作者单位:清华大学