Parallel test-time scaling typically trains separate generation and verification models, incurring high training and inference costs. We propose Advantage Decoupled Preference Optimization (ADPO), a unified reinforcement learning framework that jointly learns answer generation and self-verification within a single policy. ADPO introduces two innovations: a preference verification reward improving verification capability and a decoupled optimization mechanism enabling synergistic optimization of generation and verification. Specifically, the preference verification reward computes mean verification scores from positive and negative samples as decision thresholds, providing positive feedback when prediction correctness aligns with answer correctness. Meanwhile, the advantage decoupled optimization computes separate advantages for generation and verification, applies token masks to isolate gradients, and combines masked GRPO objectives, preserving generation quality while calibrating verification scores. ADPO achieves up to +34.1% higher verification AUC and -53.5% lower inference time, with significant gains of +2.8%/+1.4% accuracy on MathVista/MMMU, +1.9 cIoU on ReasonSeg, and +1.7%/+1.0% step success rate on AndroidControl/GUI Odyssey.


翻译:并行测试时扩展通常需要分别训练生成模型和验证模型,导致高昂的训练与推理成本。我们提出优势解耦偏好优化(ADPO),这是一种统一的强化学习框架,可在单一策略内联合学习答案生成与自验证。ADPO引入两项创新:提升验证能力的偏好验证奖励机制,以及实现生成与验证协同优化的解耦优化机制。具体而言,偏好验证奖励通过计算正负样本的平均验证分数作为决策阈值,当预测正确性与答案正确性一致时提供正向反馈。同时,优势解耦优化分别计算生成与验证的优势值,应用词元掩码隔离梯度传播,并结合掩码GRPO目标函数,在保持生成质量的同时校准验证分数。ADPO在验证AUC上最高提升+34.1%,推理时间降低53.5%,并在MathVista/MMMU数据集上准确率显著提升+2.8%/+1.4%,在ReasonSeg上cIoU提升+1.9,在AndroidControl/GUI Odyssey上步骤成功率提升+1.7%/+1.0%。

0
下载
关闭预览

相关内容

【ICML2023】多任务分层对抗逆强化学习
专知会员服务
22+阅读 · 2023年5月25日
【ICML2023】基于最优多任务插值的多模态基础模型迁移
专知会员服务
31+阅读 · 2023年4月29日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
【ICML2023】多任务分层对抗逆强化学习
专知会员服务
22+阅读 · 2023年5月25日
【ICML2023】基于最优多任务插值的多模态基础模型迁移
专知会员服务
31+阅读 · 2023年4月29日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员