S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models - 专知论文

会员服务 ·

0

混合 · 零开销 · LoRA · 注意力模型 · 适配 ·

S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

翻译：S0调优：混合循环-注意力模型的零开销适配

from arxiv, 15 pages (10 main + 5 appendix), 3 figures, code at https://github.com/jackyoung27/s0-tuning

Using roughly 48 execution-verified HumanEval training solutions, tuning a single initial state matrix per recurrent layer, with zero inference overhead, outperforms LoRA by +10.8 pp (p < 0.001) on HumanEval. The method, which we call S0 tuning, optimizes one state matrix per recurrent layer while freezing all model weights. On Qwen3.5-4B (GatedDeltaNet hybrid), S0 tuning improves greedy pass@1 by +23.6 +/- 1.7 pp (10 seeds). On FalconH1-7B (Mamba-2 hybrid), S0 reaches 71.8% +/- 1.3 and LoRA reaches 71.4% +/- 2.4 (3 seeds), statistically indistinguishable at this sample size while requiring no weight merging. Cross-domain transfer is significant on MATH-500 (+4.8 pp, p = 0.00002, 8 seeds) and GSM8K (+2.8 pp, p = 0.0003, 10 seeds); a text-to-SQL benchmark (Spider) shows no transfer, consistent with the trajectory-steering mechanism. A prefix-tuning control on a pure Transformer (Qwen2.5-3B) degrades performance by -13.9 pp under all nine configurations tested. On Qwen3.5, a per-step state-offset variant reaches +27.1 pp, above both S0 and LoRA but with per-step inference cost. Taken together, the results show that recurrent state initialization is a strong zero-inference-overhead PEFT surface for hybrid language models when verified supervision is scarce. The tuned state is a ~48 MB file; task switching requires no weight merging or model reload. Code and library: https://github.com/jackyoung27/s0-tuning.

翻译：使用约48个人工验证的HumanEval训练解决方案，对每个循环层优化单个初始状态矩阵且在推理过程零开销的条件下，该方法在HumanEval上比LoRA提升了+10.8个百分点（p<0.001）。我们将此方法命名为S0调优，它在冻结所有模型权重的条件下，为每个循环层优化一个状态矩阵。在Qwen3.5-4B（GatedDeltaNet混合模型）上，S0调优将贪婪pass@1提升了+23.6±1.7个百分点（10个随机种子）。在FalconH1-7B（Mamba-2混合模型）上，S0达到71.8%±1.3，LoRA达到71.4%±2.4（3个随机种子），在此样本量下两者统计上无显著差异，且无需权重合并。跨领域迁移在MATH-500（+4.8个百分点，p=0.00002，8个随机种子）和GSM8K（+2.8个百分点，p=0.0003，10个随机种子）上效果显著；而文本到SQL基准测试（Spider）未显示迁移，这与轨迹导向机制一致。在纯Transformer（Qwen2.5-3B）上采用的前缀微调控制在所有九种配置下均使性能下降-13.9个百分点。在Qwen3.5上，一种每步状态偏移变体达到了+27.1个百分点，超过S0和LoRA，但引入了每步推理开销。综合来看，结果表明：在验证监督数据稀缺的情况下，循环状态初始化是混合语言模型一种强大的零推理开销参数高效微调（PEFT）表面。调优后的状态文件约48MB；任务切换无需权重合并或模型重载。代码与库：https://github.com/jackyoung27/s0-tuning。

0

相关内容

提示调优综述

提示调优综述

专知会员服务

18+阅读 · 2025年7月10日

【ICML2025】扩散模型中参数高效微调的零样本适应

【ICML2025】扩散模型中参数高效微调的零样本适应

专知会员服务

13+阅读 · 2025年6月7日

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

17+阅读 · 2025年5月5日

【ICML 2024】零阶优化器微调大模型，大幅降低内存

【ICML 2024】零阶优化器微调大模型，大幅降低内存

专知会员服务

32+阅读 · 2024年7月8日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

Nature Machine Intelligence | 大规模预训练语言模型的参数高效微调

Nature Machine Intelligence | 大规模预训练语言模型的参数高效微调

专知会员服务

50+阅读 · 2023年11月21日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

无需额外数据、Tricks、架构调整，CMU开源首个将ResNet50精度提升至80%+新方法

无需额外数据、Tricks、架构调整，CMU开源首个将ResNet50精度提升至80%+新方法

专知会员服务

14+阅读 · 2020年9月20日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

一文读懂自注意力机制：8大步骤图解+代码

一文读懂自注意力机制：8大步骤图解+代码

新智元

153+阅读 · 2019年11月26日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

网络通讯约束下T-S模糊系统输出调节问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于广义输出调节的非线性多个体系统的协调控制与优化

国家自然科学基金

1+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

两类非马氏保险模型下的最优问题以及公司合并问题

国家自然科学基金

0+阅读 · 2014年12月31日

复杂生产环境下的随机客户订单调度问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

Strait: Perceiving Priority and Interference in ML Inference Serving

Arxiv

0+阅读 · 4月30日

FreeScale: Distributed Training for Sequence Recommendation Models with Minimal Scaling Cost

Arxiv

0+阅读 · 4月27日

A Goodness-of-Fit Test for Mixed-Effects Logistic Regression

Arxiv

0+阅读 · 4月21日

LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

Arxiv

0+阅读 · 4月21日

Sparse Growing Transformer: Training-Time Sparse Depth Allocation via Progressive Attention Looping

Arxiv

0+阅读 · 4月14日

Adaptive tuning of Hamiltonian Monte Carlo methods

Arxiv

0+阅读 · 4月13日

OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models

Arxiv

0+阅读 · 4月5日

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

Arxiv

0+阅读 · 3月26日

TuneShift-KD: Knowledge Distillation and Transfer for Fine-tuned Models

Arxiv

0+阅读 · 3月25日

CARE: Covariance-Aware and Rank-Enhanced Decomposition for Enabling Multi-Head Latent Attention

Arxiv

0+阅读 · 3月18日

VIP会员

文章信息

相关主题

注意力模型

最新内容

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

0+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

0+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

8+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

4+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

2+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

2+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

6+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

5+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

9+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

10+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

相关VIP内容

提示调优综述

提示调优综述

专知会员服务

18+阅读 · 2025年7月10日

【ICML2025】扩散模型中参数高效微调的零样本适应

【ICML2025】扩散模型中参数高效微调的零样本适应

专知会员服务

13+阅读 · 2025年6月7日

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

17+阅读 · 2025年5月5日

【ICML 2024】零阶优化器微调大模型，大幅降低内存

【ICML 2024】零阶优化器微调大模型，大幅降低内存

专知会员服务

32+阅读 · 2024年7月8日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

Nature Machine Intelligence | 大规模预训练语言模型的参数高效微调

Nature Machine Intelligence | 大规模预训练语言模型的参数高效微调

专知会员服务

50+阅读 · 2023年11月21日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

无需额外数据、Tricks、架构调整，CMU开源首个将ResNet50精度提升至80%+新方法

无需额外数据、Tricks、架构调整，CMU开源首个将ResNet50精度提升至80%+新方法

专知会员服务

14+阅读 · 2020年9月20日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

美空军新型反无人机部队初探

博士论文 | 面向大模型推理的内存高效算法

《无人系统互操作性导论——无人系统联合架构（JAUS）》

相关资讯

一文读懂自注意力机制：8大步骤图解+代码

一文读懂自注意力机制：8大步骤图解+代码

新智元

153+阅读 · 2019年11月26日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

相关论文

Strait: Perceiving Priority and Interference in ML Inference Serving

Arxiv

0+阅读 · 4月30日

FreeScale: Distributed Training for Sequence Recommendation Models with Minimal Scaling Cost

Arxiv

0+阅读 · 4月27日

A Goodness-of-Fit Test for Mixed-Effects Logistic Regression

Arxiv

0+阅读 · 4月21日

LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

Arxiv

0+阅读 · 4月21日

Sparse Growing Transformer: Training-Time Sparse Depth Allocation via Progressive Attention Looping

Arxiv

0+阅读 · 4月14日

Adaptive tuning of Hamiltonian Monte Carlo methods

Arxiv

0+阅读 · 4月13日

OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models

Arxiv

0+阅读 · 4月5日

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

Arxiv

0+阅读 · 3月26日

TuneShift-KD: Knowledge Distillation and Transfer for Fine-tuned Models

Arxiv

0+阅读 · 3月25日

CARE: Covariance-Aware and Rank-Enhanced Decomposition for Enabling Multi-Head Latent Attention

Arxiv

0+阅读 · 3月18日

相关基金

网络通讯约束下T-S模糊系统输出调节问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于广义输出调节的非线性多个体系统的协调控制与优化

国家自然科学基金

1+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

两类非马氏保险模型下的最优问题以及公司合并问题

国家自然科学基金

0+阅读 · 2014年12月31日

复杂生产环境下的随机客户订单调度问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员