软序列策略优化：连接GMPO与SAPO的桥梁 (Soft Sequence Policy Optimization: Bridging GMPO and SAPO) - 专知论文

会员服务 ·

0

序列 · 策略优化 · 令牌 · 重要性采样 · 自适应 ·

Soft Sequence Policy Optimization: Bridging GMPO and SAPO

翻译：软序列策略优化：连接GMPO与SAPO的桥梁

Svetlana Glazyrina,Maksim Kryzhanovskiy,Roman Ischenko

A significant portion of recent research on Large Language Model (LLM) alignment focuses on developing new policy optimization methods based on Group Relative Policy Optimization (GRPO). Two prominent directions have emerged: (i) a shift toward sequence-level importance sampling weights that better align with the sequence-level rewards used in many tasks, and (ii) alternatives to PPO-style clipping that aim to avoid the associated loss of training signal and entropy collapse. Recent work, such as Soft Adaptive Policy Optimization (SAPO), reformulates the Scopic objective within the GRPO framework and achieves both sequence coherence and token adaptivity. Geometric-Mean Policy Optimization (GMPO) leverages token-wise ratio clipping within sequence importance sampling weights. Building on these ideas, this work proposes a new objective that promotes effective policy exploration while maintaining training stability. Specifically, we introduce Soft Sequence Policy Optimization, an off-policy reinforcement learning objective that incorporates soft gating functions over token-level probability ratios within sequence-level importance weights.

翻译：近期关于大语言模型对齐的研究中，相当一部分致力于基于组相对策略优化框架开发新的策略优化方法。两个主要研究方向已经形成：一是转向序列级重要性采样权重，以更好地匹配许多任务中使用的序列级奖励；二是寻找替代PPO风格裁剪的方法，旨在避免由此产生的训练信号损失和熵崩溃。近期工作，如软自适应策略优化，在GRPO框架内重新表述了Scopic目标，同时实现了序列连贯性和令牌自适应性。几何平均策略优化则在序列重要性采样权重中利用令牌级比率裁剪。基于这些思想，本研究提出了一种新目标，在保持训练稳定性的同时促进有效的策略探索。具体而言，我们引入了软序列策略优化——一种离策略强化学习目标，该目标在序列级重要性权重中引入了对令牌级概率比率的软门控函数。

0

相关内容

数学上，序列是被排成一列的对象（或事件）；这样每个元素不是在其他元素之前，就是在其他元素之后。这里，元素之间的顺序非常重要。

【EPFL博士论文】用于高效语言建模的增强型架构与优化方法

【EPFL博士论文】用于高效语言建模的增强型架构与优化方法

专知会员服务

11+阅读 · 2025年5月17日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

专知会员服务

23+阅读 · 2024年12月18日

大语言模型在序列推荐中的应用

大语言模型在序列推荐中的应用

专知会员服务

19+阅读 · 2024年11月12日

直接偏好优化中的数据集、理论、变体和应用的综合综述

直接偏好优化中的数据集、理论、变体和应用的综合综述

专知会员服务

15+阅读 · 2024年10月24日

【ICML2024】SAPG：分裂与聚合策略梯度

【ICML2024】SAPG：分裂与聚合策略梯度

专知会员服务

19+阅读 · 2024年7月30日

大模型如何决策？上交大等最新《面向序列决策的大序列模型》综述

大模型如何决策？上交大等最新《面向序列决策的大序列模型》综述

专知会员服务

116+阅读 · 2023年6月28日

【ICML2022】序列决策的效用理论

【ICML2022】序列决策的效用理论

专知会员服务

16+阅读 · 2022年6月30日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

PMCAFF

10+阅读 · 2019年3月14日

Seq2seq强化，Pointer Network简介

Seq2seq强化，Pointer Network简介

机器学习算法与Python学习

15+阅读 · 2018年12月8日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

专知

17+阅读 · 2018年2月8日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于排序法和分解的高维多目标演化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

弹性QoS的快速多目标优化软件定义卫星网络流控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于调度采样的网络化系统分布式控制策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定环境下产品配置与供应商选择集成优化方法

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

复杂生产制造环境下的排序问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

Arxiv

0+阅读 · 3月17日

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Arxiv

0+阅读 · 3月6日

TROLL: Trust Regions improve Reinforcement Learning for Large Language Models

Arxiv

0+阅读 · 2月23日

Smooth Gate Functions for Soft Advantage Policy Optimization

Arxiv

0+阅读 · 2月22日

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Arxiv

0+阅读 · 2月11日

ExO-PPO: an Extended Off-policy Proximal Policy Optimization Algorithm

Arxiv

0+阅读 · 2月10日

QUATRO: Query-Adaptive Trust Region Policy Optimization for LLM Fine-tuning

Arxiv

0+阅读 · 2月4日

PRPO: Aligning Process Reward with Outcome Reward in Policy Optimization

Arxiv

0+阅读 · 2月3日

RC-GRPO: Reward-Conditioned Group Relative Policy Optimization for Multi-Turn Tool Calling Agents

Arxiv

0+阅读 · 2月3日

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

重要性采样

最新内容

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

专知会员服务

3+阅读 · 4月12日

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

专知会员服务

5+阅读 · 4月12日

最新“指挥控制”领域出版物合集（16份）

最新“指挥控制”领域出版物合集（16份）

专知会员服务

7+阅读 · 4月12日

面向军事作战需求开发的人工智能（RAIMOND）

面向军事作战需求开发的人工智能（RAIMOND）

专知会员服务

15+阅读 · 4月12日

检测算法战：一个识别军事行动中人工智能特征的框架

检测算法战：一个识别军事行动中人工智能特征的框架

专知会员服务

9+阅读 · 4月12日

软件定义多域战术网络：基础与未来方向（综述）

软件定义多域战术网络：基础与未来方向（综述）

专知会员服务

11+阅读 · 4月12日

水下战战术决策中的气象与海洋预报（50页报告）

水下战战术决策中的气象与海洋预报（50页报告）

专知会员服务

3+阅读 · 4月12日

远程空中优势：新一代超视距导弹的兴起

远程空中优势：新一代超视距导弹的兴起

专知会员服务

2+阅读 · 4月12日

大语言模型溯因推理的统一分类学与综述

大语言模型溯因推理的统一分类学与综述

专知会员服务

3+阅读 · 4月12日

CVPR 2026 Findings | 算力砍半、性能不降！全开源 A₁模型：让机器人大模型真正走向落地

CVPR 2026 Findings | 算力砍半、性能不降！全开源 A₁模型：让机器人大模型真正走向落地

专知会员服务

1+阅读 · 4月12日

大语言模型与国防战略：升级风险与国家安全挑战（综述）

大语言模型与国防战略：升级风险与国家安全挑战（综述）

专知会员服务

9+阅读 · 4月12日

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

专知会员服务

11+阅读 · 4月11日

以机器速度作战：人工智能与美陆军反火力作战——第二部分

以机器速度作战：人工智能与美陆军反火力作战——第二部分

专知会员服务

10+阅读 · 4月11日

以机器速度作战：人工智能与美陆军反火力作战——第一部分

以机器速度作战：人工智能与美陆军反火力作战——第一部分

专知会员服务

8+阅读 · 4月11日

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

专知会员服务

7+阅读 · 4月11日

相关VIP内容

【EPFL博士论文】用于高效语言建模的增强型架构与优化方法

【EPFL博士论文】用于高效语言建模的增强型架构与优化方法

专知会员服务

11+阅读 · 2025年5月17日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

专知会员服务

23+阅读 · 2024年12月18日

大语言模型在序列推荐中的应用

大语言模型在序列推荐中的应用

专知会员服务

19+阅读 · 2024年11月12日

直接偏好优化中的数据集、理论、变体和应用的综合综述

直接偏好优化中的数据集、理论、变体和应用的综合综述

专知会员服务

15+阅读 · 2024年10月24日

【ICML2024】SAPG：分裂与聚合策略梯度

【ICML2024】SAPG：分裂与聚合策略梯度

专知会员服务

19+阅读 · 2024年7月30日

大模型如何决策？上交大等最新《面向序列决策的大序列模型》综述

大模型如何决策？上交大等最新《面向序列决策的大序列模型》综述

专知会员服务

116+阅读 · 2023年6月28日

【ICML2022】序列决策的效用理论

【ICML2022】序列决策的效用理论

专知会员服务

16+阅读 · 2022年6月30日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

面向军事作战需求开发的人工智能（RAIMOND）

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

最新“指挥控制”领域出版物合集（16份）

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

PMCAFF

10+阅读 · 2019年3月14日

Seq2seq强化，Pointer Network简介

Seq2seq强化，Pointer Network简介

机器学习算法与Python学习

15+阅读 · 2018年12月8日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

专知

17+阅读 · 2018年2月8日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

相关论文

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

Arxiv

0+阅读 · 3月17日

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Arxiv

0+阅读 · 3月6日

TROLL: Trust Regions improve Reinforcement Learning for Large Language Models

Arxiv

0+阅读 · 2月23日

Smooth Gate Functions for Soft Advantage Policy Optimization

Arxiv

0+阅读 · 2月22日

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Arxiv

0+阅读 · 2月11日

ExO-PPO: an Extended Off-policy Proximal Policy Optimization Algorithm

Arxiv

0+阅读 · 2月10日

QUATRO: Query-Adaptive Trust Region Policy Optimization for LLM Fine-tuning

Arxiv

0+阅读 · 2月4日

PRPO: Aligning Process Reward with Outcome Reward in Policy Optimization

Arxiv

0+阅读 · 2月3日

RC-GRPO: Reward-Conditioned Group Relative Policy Optimization for Multi-Turn Tool Calling Agents

Arxiv

0+阅读 · 2月3日

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

Arxiv

0+阅读 · 2月1日

相关基金

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于排序法和分解的高维多目标演化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

弹性QoS的快速多目标优化软件定义卫星网络流控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于调度采样的网络化系统分布式控制策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定环境下产品配置与供应商选择集成优化方法

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

复杂生产制造环境下的排序问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员