两种RLHF目标何时等价？ (When Are Two RLHF Objectives the Same?) - 专知论文

会员服务 ·

0

目标函数 · 算法 · 多目标 · 规范化 · 反例 ·

When Are Two RLHF Objectives the Same?

翻译：两种RLHF目标何时等价？

Madhava Gaikwad

from arxiv, 21 pages

The preference optimization literature contains many proposed objectives, often presented as distinct improvements. We introduce Opal, a canonicalization algorithm that determines whether two preference objectives are algebraically equivalent by producing either a canonical form or a concrete witness of non-equivalence. Applying Opal reveals that many widely used methods optimize the same underlying objective, while others are provably distinct. For example, batch normalization can cause the same response pair to receive different gradients depending on batch composition. We identify a small set of structural mechanisms that give rise to genuinely different objectives; most remaining differences are reparameterizations.

翻译：偏好优化文献中提出了众多目标函数，这些目标常被表述为具有显著差异的改进方案。本文引入Opal——一种规范化算法，该算法通过生成规范形式或提供不等价的具体反例，以判定两种偏好目标在代数上是否等价。应用Opal分析表明，许多广泛使用的方法实际上优化了相同的底层目标，而另一些方法则被证明存在本质差异。例如，批归一化操作可能导致同一响应对根据批次构成的不同而获得相异的梯度。我们识别出一组能产生本质不同目标函数的结构性机制；其余多数差异仅源于参数重表述。

0

相关内容

目标函数

我们给定x，函数都会输出一个f(X)，这个输出的f(X)与真实值Y可能是相同的，也可能是不同的，为了表示拟合的好坏，就用一个函数来度量拟合的程度。这个函数就称为损失函数(loss function)，或者叫代价函数(cost function)

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

专知会员服务

75+阅读 · 2023年5月4日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

专知会员服务

24+阅读 · 2022年4月1日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

【ICML2021】基于数据采样的影响力最大化问题

专知会员服务

21+阅读 · 2021年8月1日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

专知会员服务

46+阅读 · 2019年11月15日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

药物化学第二期：蛋白质-小分子对接Score函数总结

药物化学第二期：蛋白质-小分子对接Score函数总结

GenomicAI

30+阅读 · 2022年3月5日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

干货 | 目标检测入门，看这篇就够了（下）

干货 | 目标检测入门，看这篇就够了（下）

AI100

10+阅读 · 2018年3月17日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

具有时滞效应的微分向量优化问题的理论、算法及应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

Forward-Looking与Backward-Looking相结合的投资组合管理

国家自然科学基金

1+阅读 · 2014年12月31日

基于对偶两步模型的图像放大问题

国家自然科学基金

0+阅读 · 2014年12月31日

空间分数阶Schr？dinger方程的时间分裂谱方法

国家自然科学基金

0+阅读 · 2014年12月31日

向量变分不等式的间隙函数与误差界研究

国家自然科学基金

0+阅读 · 2014年12月31日

考虑共谋行为的多属性采购拍卖理论与优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

等价活动标架理论及其在微分方程和计算机视觉与模式识别中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF

Arxiv

0+阅读 · 2月17日

Less is More: Improving LLM Alignment via Preference Data Selection

Arxiv

0+阅读 · 2月15日

How Sampling Shapes LLM Alignment: From One-Shot Optima to Iterative Dynamics

Arxiv

0+阅读 · 2月12日

A Quadratic Link between Out-of-Sample $R^2$ and Directional Accuracy

Arxiv

0+阅读 · 2月8日

It's all In the (Exponential) Family: An Equivalence between Maximum Likelihood Estimation and Control Variates for Sketching Algorithms

Arxiv

0+阅读 · 2月4日

Quality-Diversity Optimization as Multi-Objective Optimization

Arxiv

0+阅读 · 1月31日

Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in Large Language Models

Arxiv

0+阅读 · 1月30日

It's all the (Exponential) Family: An Equivalence between Maximum Likelihood Estimation and Control Variates for Sketching Algorithms

Arxiv

0+阅读 · 1月29日

R$^2$PO: Decoupling Training Trajectories from Inference Responses for LLM Reasoning

Arxiv

0+阅读 · 1月23日

Few for Many: Tchebycheff Set Scalarization for Many-Objective Optimization

Arxiv

0+阅读 · 1月17日

VIP会员

文章信息

相关主题

相关VIP内容

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

专知会员服务

75+阅读 · 2023年5月4日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

专知会员服务

24+阅读 · 2022年4月1日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

【ICML2021】基于数据采样的影响力最大化问题

专知会员服务

21+阅读 · 2021年8月1日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

专知会员服务

46+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

药物化学第二期：蛋白质-小分子对接Score函数总结

药物化学第二期：蛋白质-小分子对接Score函数总结

GenomicAI

30+阅读 · 2022年3月5日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

干货 | 目标检测入门，看这篇就够了（下）

干货 | 目标检测入门，看这篇就够了（下）

AI100

10+阅读 · 2018年3月17日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF

Arxiv

0+阅读 · 2月17日

Less is More: Improving LLM Alignment via Preference Data Selection

Arxiv

0+阅读 · 2月15日

How Sampling Shapes LLM Alignment: From One-Shot Optima to Iterative Dynamics

Arxiv

0+阅读 · 2月12日

A Quadratic Link between Out-of-Sample $R^2$ and Directional Accuracy

Arxiv

0+阅读 · 2月8日

It's all In the (Exponential) Family: An Equivalence between Maximum Likelihood Estimation and Control Variates for Sketching Algorithms

Arxiv

0+阅读 · 2月4日

Quality-Diversity Optimization as Multi-Objective Optimization

Arxiv

0+阅读 · 1月31日

Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in Large Language Models

Arxiv

0+阅读 · 1月30日

It's all the (Exponential) Family: An Equivalence between Maximum Likelihood Estimation and Control Variates for Sketching Algorithms

Arxiv

0+阅读 · 1月29日

R$^2$PO: Decoupling Training Trajectories from Inference Responses for LLM Reasoning

Arxiv

0+阅读 · 1月23日

Few for Many: Tchebycheff Set Scalarization for Many-Objective Optimization

Arxiv

0+阅读 · 1月17日

相关基金

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

具有时滞效应的微分向量优化问题的理论、算法及应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

Forward-Looking与Backward-Looking相结合的投资组合管理

国家自然科学基金

1+阅读 · 2014年12月31日

基于对偶两步模型的图像放大问题

国家自然科学基金

0+阅读 · 2014年12月31日

空间分数阶Schr？dinger方程的时间分裂谱方法

国家自然科学基金

0+阅读 · 2014年12月31日

向量变分不等式的间隙函数与误差界研究

国家自然科学基金

0+阅读 · 2014年12月31日

考虑共谋行为的多属性采购拍卖理论与优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

等价活动标架理论及其在微分方程和计算机视觉与模式识别中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员