Beyond Scalar Rewards by Internalizing Reasoning into Score Distributions - 专知论文

会员服务 ·

0

标量 · 基线 · 奖励模型 · 表示 · 不确定 ·

Beyond Scalar Rewards by Internalizing Reasoning into Score Distributions

翻译：超越标量奖励：将推理内化到评分分布中

Xin Jin,Huanqia Cai,Zhen Li,Zechao Zhan,Dengyang Jiang,Aiming Hao,Yuming Jiang,Chunle Guo,Peng Gao,Ming-Ming Cheng,Steven C. H. Hoi

from arxiv, Z-Image Team Technical Report

Reward models are central to text-to-image post-training, but visual preference is subjective and better represented as a distribution over rubric scores than as a deterministic scalar. Existing scalar, score-token, and pairwise reward models over-compress uncertainty and fine-grained score differences, while reasoning-based generative rewards provide stronger judgments but are costly to deploy and difficult to use as direct optimization signals. We propose Z-Reward, a teacher-student reward modeling framework that decouples reasoning-heavy judgment from efficient reward deployment. The teacher is a large VLM that uses reasoning to infer rubric-aligned score distributions, and is trained with Group-wise Direct Score Optimization (GDSO), which combines policy-gradient rewards from distribution expectations with direct pointwise and pairwise supervision on score distributions and score gaps. The student is trained with Reasoning-Internalized Score Distillation (RISD), which transfers the teacher's reasoning-conditioned score distribution into a compact VLM without requiring explicit reasoning chains at inference time. On our internally annotated evaluation set, the 27B GDSO teacher reaches 89.6% human preference accuracy, outperforming SFT, RewardDance, and GRPO, while the 9B RISD student reaches 88.6%, outperforming the OPD baseline and closely matching the larger teacher. We further show that Z-Reward can serve as a differentiable reward signal for text-to-image optimization, yielding a 41.3% net human-preference improvement over the SFT baseline.

翻译：奖励模型是文本到图像后训练的核心，但视觉偏好具有主观性，更应表示为基于评分标准的分布而非确定性的标量。现有的标量、评分标记和成对奖励模型过度压缩了不确定性和细粒度评分差异，而基于推理的生成奖励虽能提供更强的判断，但部署成本高且难以直接用作优化信号。我们提出Z-Reward，一种教师-学生奖励建模框架，将推理密集型判断与高效奖励部署解耦。教师是一个大型视觉语言模型（VLM），利用推理推断符合评分标准的评分分布，并通过分组直接评分优化（GDSO）进行训练，该方法结合了来自分布期望的策略梯度奖励以及在评分分布和评分差距上的直接逐点和成对监督。学生通过推理内化评分蒸馏（RISD）训练，将教师基于推理条件的评分分布转移到紧凑的VLM中，无需在推理时显式推理链。在我们内部标注的评估集上，270亿参数的GDSO教师达到89.6%的人类偏好准确率，优于SFT、RewardDance和GRPO；而90亿参数的RISD学生达到88.6%，优于OPD基线并与更大的教师模型表现相当。我们进一步表明，Z-Reward可作为可微分的奖励信号用于文本到图像优化，相较于SFT基线实现了41.3%的净人类偏好提升。

0

相关内容

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

专知会员服务

21+阅读 · 2025年1月20日

【阿里千问】在数学推理中开发过程奖励模型的经验教训

【阿里千问】在数学推理中开发过程奖励模型的经验教训

专知会员服务

18+阅读 · 2025年1月14日

基于因果推断的推荐系统去偏研究

基于因果推断的推荐系统去偏研究

专知会员服务

21+阅读 · 2024年11月10日

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

专知会员服务

22+阅读 · 2024年5月25日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

【CIKM2020-北大】Set-Sequence-Graph:一种利用评论来获取推荐的多视图方法

专知会员服务

21+阅读 · 2020年9月22日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

IJCAI 2019 | 为推荐系统生成高质量的文本解释：基于互注意力机制的多任务学习模型

IJCAI 2019 | 为推荐系统生成高质量的文本解释：基于互注意力机制的多任务学习模型

微软研究院AI头条

18+阅读 · 2019年8月13日

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

GAN生成式对抗网络

26+阅读 · 2019年6月1日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

外部激励对网络口碑传播行为和说服力的影响：基于大数据分析和行为实验的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

Disentangling Perception and Reasoning in Multimodal LLMs via Reward Design

Arxiv

0+阅读 · 6月15日

Beyond Rubrics: Exploration-Guided Evaluation Skills for Reward Modeling

Arxiv

0+阅读 · 6月11日

MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes

Arxiv

0+阅读 · 6月10日

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

Arxiv

0+阅读 · 6月9日

Beyond Point Estimates: Reliable Evaluation of Prediction Performance Metrics under Clustered Data

Arxiv

0+阅读 · 6月3日

QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards

Arxiv

0+阅读 · 6月2日

Beyond Point Estimates: Reliable Evaluation of Prediction Performance Metrics under Clustered Data

Arxiv

0+阅读 · 6月2日

MARS: Margin and Semantic-Aware Data Augmentation for Reward Modeling

Arxiv

0+阅读 · 5月25日

Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

Arxiv

0+阅读 · 5月19日

Beyond Point Estimates: Distributional Uncertainty in Machine Learning Performance Evaluation

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

7+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

专知会员服务

21+阅读 · 2025年1月20日

【阿里千问】在数学推理中开发过程奖励模型的经验教训

【阿里千问】在数学推理中开发过程奖励模型的经验教训

专知会员服务

18+阅读 · 2025年1月14日

基于因果推断的推荐系统去偏研究

基于因果推断的推荐系统去偏研究

专知会员服务

21+阅读 · 2024年11月10日

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

专知会员服务

22+阅读 · 2024年5月25日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

【CIKM2020-北大】Set-Sequence-Graph:一种利用评论来获取推荐的多视图方法

专知会员服务

21+阅读 · 2020年9月22日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

IJCAI 2019 | 为推荐系统生成高质量的文本解释：基于互注意力机制的多任务学习模型

IJCAI 2019 | 为推荐系统生成高质量的文本解释：基于互注意力机制的多任务学习模型

微软研究院AI头条

18+阅读 · 2019年8月13日

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

GAN生成式对抗网络

26+阅读 · 2019年6月1日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

相关论文

Disentangling Perception and Reasoning in Multimodal LLMs via Reward Design

Arxiv

0+阅读 · 6月15日

Beyond Rubrics: Exploration-Guided Evaluation Skills for Reward Modeling

Arxiv

0+阅读 · 6月11日

MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes

Arxiv

0+阅读 · 6月10日

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

Arxiv

0+阅读 · 6月9日

Beyond Point Estimates: Reliable Evaluation of Prediction Performance Metrics under Clustered Data

Arxiv

0+阅读 · 6月3日

QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards

Arxiv

0+阅读 · 6月2日

Beyond Point Estimates: Reliable Evaluation of Prediction Performance Metrics under Clustered Data

Arxiv

0+阅读 · 6月2日

MARS: Margin and Semantic-Aware Data Augmentation for Reward Modeling

Arxiv

0+阅读 · 5月25日

Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

Arxiv

0+阅读 · 5月19日

Beyond Point Estimates: Distributional Uncertainty in Machine Learning Performance Evaluation

Arxiv

0+阅读 · 5月12日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

外部激励对网络口碑传播行为和说服力的影响：基于大数据分析和行为实验的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员