平滑门函数在软优势策略优化中的应用 (Smooth Gate Functions for Soft Advantage Policy Optimization) - 专知论文

会员服务 ·

0

策略优化 · 平滑 · 语言模型 · 不稳定 · 自适应 ·

Smooth Gate Functions for Soft Advantage Policy Optimization

翻译：平滑门函数在软优势策略优化中的应用

Egor Denisov,Svetlana Glazyrina,Maksim Kryzhanovskiy,Roman Ischenko

Group Relative Policy Optimization (GRPO) has significantly advanced the training of large language models and enhanced their reasoning capabilities, while it remains susceptible to instability due to the use of hard clipping. Soft Adaptive Policy Optimization (SAPO) addresses this limitation by replacing clipping with a smooth sigmoid-based gate function, which leads to more stable updates. We have decided to push this theory further and investigate the impact of different gate functions on both training stability and final model performance. We formalize the key properties that admissible gates should satisfy and identify several families of such functions for empirical evaluation. This paper presents an analysis of our findings based on experiments conducted with the Qwen2.5-7B-Instruct model on mathematical reasoning tasks. These results provide practical guidance for designing smoother and more robust policy optimization objectives for large language model training.

翻译：群体相对策略优化（GRPO）显著推进了大语言模型的训练并增强了其推理能力，然而由于使用了硬截断，该方法仍易受不稳定性影响。软自适应策略优化（SAPO）通过将截断替换为基于平滑sigmoid的门函数来解决这一局限，从而实现了更稳定的更新。我们决定进一步推进该理论，研究不同门函数对训练稳定性和最终模型性能的影响。我们形式化了可接受门函数应满足的关键性质，并识别了多个此类函数族用于实证评估。本文基于在数学推理任务上使用Qwen2.5-7B-Instruct模型进行的实验，分析了我们的发现。这些结果为设计更平滑、更鲁棒的大语言模型训练策略优化目标提供了实用指导。

0

相关内容

策略优化

生成模型中组相对策略优化 (GRPO) 的研究进展：综述

生成模型中组相对策略优化 (GRPO) 的研究进展：综述

专知会员服务

8+阅读 · 3月10日

多模态大语言模型下游调优中“保持自我”的重要性

多模态大语言模型下游调优中“保持自我”的重要性

专知会员服务

17+阅读 · 2025年12月15日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

直接偏好优化中的数据集、理论、变体和应用的综合综述

直接偏好优化中的数据集、理论、变体和应用的综合综述

专知会员服务

15+阅读 · 2024年10月24日

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

专知会员服务

27+阅读 · 2024年8月27日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【NeurIPS2021】Spatial Ensemble：一种新颖的用于学生-老师框架的模型平滑机制

【NeurIPS2021】Spatial Ensemble：一种新颖的用于学生-老师框架的模型平滑机制

专知会员服务

18+阅读 · 2021年11月8日

【Google】平滑对抗训练，Smooth Adversarial Training

【Google】平滑对抗训练，Smooth Adversarial Training

专知会员服务

49+阅读 · 2020年7月4日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

激活函数还是有一点意思的！

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

从动力学角度看优化算法：GAN的第三个阶段

从动力学角度看优化算法：GAN的第三个阶段

PaperWeekly

11+阅读 · 2019年5月13日

从最优化的角度看待 Softmax 损失函数

从最优化的角度看待 Softmax 损失函数

极市平台

31+阅读 · 2019年2月21日

自定义损失函数Gradient Boosting

自定义损失函数Gradient Boosting

AI研习社

14+阅读 · 2018年10月16日

从Seq2seq到Attention模型到Self Attention（二）

从Seq2seq到Attention模型到Self Attention（二）

量化投资与机器学习

23+阅读 · 2018年10月9日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

求解非凸随机二阶锥优化问题的无导数方法研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

功率天平准直误差软补偿关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

一种新的平滑肌收缩机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

光滑函数类的熵数估计

国家自然科学基金

0+阅读 · 2015年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

When Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO

Arxiv

0+阅读 · 3月13日

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Arxiv

0+阅读 · 3月10日

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Arxiv

0+阅读 · 3月6日

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic

Arxiv

0+阅读 · 3月3日

Soft Sequence Policy Optimization: Bridging GMPO and SAPO

Arxiv

0+阅读 · 2月22日

AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models

Arxiv

0+阅读 · 2月6日

Prompt Augmentation Scales up GRPO Training on Mathematical Reasoning

Arxiv

0+阅读 · 2月5日

Constrained Group Relative Policy Optimization

Arxiv

0+阅读 · 2月5日

QUATRO: Query-Adaptive Trust Region Policy Optimization for LLM Fine-tuning

Arxiv

0+阅读 · 2月4日

Rethinking Multinomial Logistic Mixture of Experts with Sigmoid Gating Function

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

2+阅读 · 今天9:52

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

5+阅读 · 今天9:28

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

7+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

3+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

2+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

18+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

3+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

7+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

13+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

3+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

5+阅读 · 4月16日

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

4+阅读 · 4月16日

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

6+阅读 · 4月16日

相关VIP内容

生成模型中组相对策略优化 (GRPO) 的研究进展：综述

生成模型中组相对策略优化 (GRPO) 的研究进展：综述

专知会员服务

8+阅读 · 3月10日

多模态大语言模型下游调优中“保持自我”的重要性

多模态大语言模型下游调优中“保持自我”的重要性

专知会员服务

17+阅读 · 2025年12月15日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

直接偏好优化中的数据集、理论、变体和应用的综合综述

直接偏好优化中的数据集、理论、变体和应用的综合综述

专知会员服务

15+阅读 · 2024年10月24日

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

专知会员服务

27+阅读 · 2024年8月27日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【NeurIPS2021】Spatial Ensemble：一种新颖的用于学生-老师框架的模型平滑机制

【NeurIPS2021】Spatial Ensemble：一种新颖的用于学生-老师框架的模型平滑机制

专知会员服务

18+阅读 · 2021年11月8日

【Google】平滑对抗训练，Smooth Adversarial Training

【Google】平滑对抗训练，Smooth Adversarial Training

专知会员服务

49+阅读 · 2020年7月4日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

（中文）AUKUS第二支柱中的人工智能与自主性方案

《反小型无人机系统的雷达高度估计相干干扰研究》60页

（中文）以机器速度作战：来自Maven特遣队主任的见解

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

激活函数还是有一点意思的！

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

从动力学角度看优化算法：GAN的第三个阶段

从动力学角度看优化算法：GAN的第三个阶段

PaperWeekly

11+阅读 · 2019年5月13日

从最优化的角度看待 Softmax 损失函数

从最优化的角度看待 Softmax 损失函数

极市平台

31+阅读 · 2019年2月21日

自定义损失函数Gradient Boosting

自定义损失函数Gradient Boosting

AI研习社

14+阅读 · 2018年10月16日

从Seq2seq到Attention模型到Self Attention（二）

从Seq2seq到Attention模型到Self Attention（二）

量化投资与机器学习

23+阅读 · 2018年10月9日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

When Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO

Arxiv

0+阅读 · 3月13日

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Arxiv

0+阅读 · 3月10日

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Arxiv

0+阅读 · 3月6日

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic

Arxiv

0+阅读 · 3月3日

Soft Sequence Policy Optimization: Bridging GMPO and SAPO

Arxiv

0+阅读 · 2月22日

AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models

Arxiv

0+阅读 · 2月6日

Prompt Augmentation Scales up GRPO Training on Mathematical Reasoning

Arxiv

0+阅读 · 2月5日

Constrained Group Relative Policy Optimization

Arxiv

0+阅读 · 2月5日

QUATRO: Query-Adaptive Trust Region Policy Optimization for LLM Fine-tuning

Arxiv

0+阅读 · 2月4日

Rethinking Multinomial Logistic Mixture of Experts with Sigmoid Gating Function

Arxiv

0+阅读 · 2月1日

相关基金

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

求解非凸随机二阶锥优化问题的无导数方法研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

功率天平准直误差软补偿关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

一种新的平滑肌收缩机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

光滑函数类的熵数估计

国家自然科学基金

0+阅读 · 2015年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员