Language models must now generalize out of the box to novel environments and work inside inference-scaling search procedures, such as AlphaEvolve, that select rollouts with a variety of task-specific reward functions. Unfortunately, the standard paradigm of LLM post-training optimizes a pre-specified scalar reward, often leading current LLMs to produce low-entropy response distributions and thus to struggle at displaying the diversity that inference-time search will require. We propose Vector Policy Optimization (VPO), an RL algorithm that explicitly trains policies to anticipate diverse downstream reward functions and to produce diverse solutions. VPO exploits that rewards are often vector-valued in practice, like per-test-case correctness in code generation or, say, multiple different user personas or reward models. VPO is essentially a drop-in replacement for the GRPO advantage estimator, but it trains the LLM to output a set of solutions where individual solutions specialize to different trade-offs in the vector reward space. Across four tasks, VPO matches or beats the strongest scalar RL baselines on test-time search (e.g. pass@k and best@k), with the gap widening as the search budget grows. For evolutionary search, VPO models unlock problems that GRPO models cannot solve at all. As test-time search becomes more standardized, optimizing for diversity may need to become the default post-training objective.


翻译:语言模型如今必须在新环境中实现零样本泛化,并适配于推理缩放搜索流程(如AlphaEvolve),这类流程通过多种任务特定奖励函数筛选生成结果。然而,当前大语言模型(LLM)的后训练标准范式仅针对预设的标量奖励进行优化,导致模型倾向于生成低熵响应分布,难以展现推理时搜索所需的多样性。为此,我们提出向量策略优化(Vector Policy Optimization,VPO)算法,这是一种显式训练策略以应对多样化下游奖励函数并生成多样性解决方案的强化学习算法。VPO利用了实践中奖励常以向量形式呈现的特性(例如代码生成中逐测试用例的正确性、多种用户画像或奖励模型)。本质上,VPO可作为GRPO优势估计器的即插即用替代方案,其核心在于训练LLM输出一组解,使其中每个解专门适配向量奖励空间中的不同权衡。在四项任务中,VPO在测试时搜索指标(如pass@k和best@k)上均达到或超越最强标量强化学习基线,且随着搜索预算增加,性能差距持续扩大。在进化搜索场景中,VPO模型能破解GRPO模型完全无法解决的问题。随着测试时搜索日益标准化,面向多样性的优化或将成为默认的后训练目标。

0
下载
关闭预览

相关内容

从数据中心视角出发的高效大语言模型训练综述
专知会员服务
23+阅读 · 2025年10月31日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
【博士论文】朝向大规模语言模型的原则性训练与服务
专知会员服务
10+阅读 · 2025年2月10日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员