SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization - 专知论文

会员服务 ·

0

似然 · 优化方法 · 约束 · 对齐 · 偏好优化 ·

SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization

翻译：SLIME：基于稳定似然的隐式边界强化偏好优化方法

Maksim Afanasyev,Illarion Iov

Direct preference optimization methods have emerged as a computationally efficient alternative to Reinforcement Learning from Human Feedback (RLHF) for aligning Large Language Models (LLMs). Latest approaches have streamlined the alignment process by deriving implicit reward functions, yet they often suffer from a critical objective mismatch: optimizing the relative margin between chosen and rejected responses does not guarantee the preservation of the chosen response's absolute likelihood. This can lead to ``unlearning'', where the model degrades the probability of high-quality outputs to satisfy margin constraints, and ``formatting collapse'' caused by the over-penalization of rejected sequences. In this work, we introduce SLIME (Stabilized Likelihood Implicit Margin Enforcement), a reference-free alignment objective designed to decouple preference learning from generation quality. SLIME incorporates a three-pronged objective: (1) an anchoring term to maximize the likelihood of preferred responses; (2) a stabilizing penalty that prevents the probabilities of rejected tokens from collapsing to zero; and (3) a dual-margin mechanism that combines hard and soft constraints for precise boundary shaping. Our results demonstrate that SLIME achieves superior performance compared to state-of-the-art baselines while maintaining higher generation stability.

翻译：直接偏好优化方法已成为替代基于人类反馈的强化学习（RLHF）以对齐大语言模型（LLM）的一种计算高效方案。最新方法通过推导隐式奖励函数简化了对齐过程，但它们常面临一个关键的目标失配问题：优化被选与拒绝回复间的相对边界并不能保证被选回复绝对似然的保持。这可能导致“遗忘”现象——模型为满足边界约束而降低高质量输出的概率，以及因对拒绝序列过度惩罚而引发的“格式崩溃”。本文提出SLIME（基于稳定似然的隐式边界强化），一种无参考的对齐目标函数，旨在解耦偏好学习与生成质量。SLIME包含三重目标：（1）锚定项以最大化偏好回复的似然；（2）稳定惩罚项以防止拒绝标记的概率坍缩至零；（3）结合硬约束与软约束的双边界机制，用于精确的边界塑形。实验结果表明，SLIME在保持更高生成稳定性的同时，相比现有先进基线方法实现了更优的性能。

0

相关内容

【EMNLP2025】面向大语言模型的权重旋转偏好优化

【EMNLP2025】面向大语言模型的权重旋转偏好优化

专知会员服务

12+阅读 · 2025年8月27日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

专知会员服务

23+阅读 · 2024年12月18日

直接偏好优化中的数据集、理论、变体和应用的综合综述

直接偏好优化中的数据集、理论、变体和应用的综合综述

专知会员服务

15+阅读 · 2024年10月24日

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

专知会员服务

17+阅读 · 2024年5月26日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

55+阅读 · 2023年8月12日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

19+阅读 · 2022年6月28日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

适定的多元样条逼近方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

基于动态规划粘性解及特征正交分解降维方法的偏微分方程最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

非Lipschitz优化问题的理论算法研究及其在稀疏解还原问题中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

Arxiv

0+阅读 · 3月11日

Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual

Arxiv

0+阅读 · 2月25日

MARS: Margin-Aware Reward-Modeling with Self-Refinement

MARS: Margin-Aware Reward-Modeling with Self-Refinement

Arxiv

0+阅读 · 2月19日

Beyond Pairwise: Empowering LLM Alignment With Ranked Choice Modeling

Arxiv

0+阅读 · 2月10日

Autoregressive Direct Preference Optimization

Arxiv

0+阅读 · 2月10日

InSPO: Unlocking Intrinsic Self-Reflection for LLM Preference Optimization

Arxiv

0+阅读 · 2月9日

R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging

Arxiv

0+阅读 · 2月6日

Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors

Arxiv

0+阅读 · 2月3日

Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model

Arxiv

0+阅读 · 2月2日

SAFER: Probing Safety in Reward Models with Sparse Autoencoder

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

4+阅读 · 今天8:46

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

3+阅读 · 今天7:41

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

2+阅读 · 今天7:22

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

6+阅读 · 今天6:04

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

7+阅读 · 今天5:37

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

6+阅读 · 今天5:35

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

2+阅读 · 今天5:24

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

2+阅读 · 今天5:18

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

2+阅读 · 今天3:25

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

13+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

3+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

4+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

7+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

相关VIP内容

【EMNLP2025】面向大语言模型的权重旋转偏好优化

【EMNLP2025】面向大语言模型的权重旋转偏好优化

专知会员服务

12+阅读 · 2025年8月27日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

专知会员服务

23+阅读 · 2024年12月18日

直接偏好优化中的数据集、理论、变体和应用的综合综述

直接偏好优化中的数据集、理论、变体和应用的综合综述

专知会员服务

15+阅读 · 2024年10月24日

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

专知会员服务

17+阅读 · 2024年5月26日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

55+阅读 · 2023年8月12日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

19+阅读 · 2022年6月28日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

热门VIP内容

开通专知VIP会员享更多权益服务

战场之外的较量：美伊冲突中的认知战与心理博弈

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

以色列军事技术对美国军力发展的持续性赋能

俄乌战争中乌克兰防空能力演变与见解（中文版）

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

Arxiv

0+阅读 · 3月11日

Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual

Arxiv

0+阅读 · 2月25日

MARS: Margin-Aware Reward-Modeling with Self-Refinement

MARS: Margin-Aware Reward-Modeling with Self-Refinement

Arxiv

0+阅读 · 2月19日

Beyond Pairwise: Empowering LLM Alignment With Ranked Choice Modeling

Arxiv

0+阅读 · 2月10日

Autoregressive Direct Preference Optimization

Arxiv

0+阅读 · 2月10日

InSPO: Unlocking Intrinsic Self-Reflection for LLM Preference Optimization

Arxiv

0+阅读 · 2月9日

R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging

Arxiv

0+阅读 · 2月6日

Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors

Arxiv

0+阅读 · 2月3日

Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model

Arxiv

0+阅读 · 2月2日

SAFER: Probing Safety in Reward Models with Sparse Autoencoder

Arxiv

0+阅读 · 1月30日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

适定的多元样条逼近方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

基于动态规划粘性解及特征正交分解降维方法的偏微分方程最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

非Lipschitz优化问题的理论算法研究及其在稀疏解还原问题中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员