ICML 2026 | VOTP:用视频基础模型与最优传输,让离线偏好强化学习只需少量反馈

偏好强化学习的吸引力在于:人不必手写复杂奖励函数,只要比较两段行为视频,告诉智能体“哪一个更好”。但它的现实瓶颈也很明显:要学到可靠奖励模型,通常需要大量人工偏好标注。对于机器人和连续控制任务,收集成百上千个视频比较既昂贵,也很难长期维护。 ICML 2026 论文《Video-Based Optimal Transport for Feedback-Efficient Offline Preference-Based Reinforcement Learning》围绕这个问题提出 VOTP(Video-based Optimal Transport Preference)。它的核心思路是:既然人的偏好往往来自对行为视频的视觉判断,就不应只把少量标注视频当作孤立样本,而应借助视频基础模型的表征空间,把已标注行为与大量未标注行为对齐,再用最优传输传播偏好信号。 换句话说,VOTP 不是让大模型直接打分,也不是用当前不可靠的奖励模型自我扩增标签,而是在视频基础模型的潜空间里计算“哪些未标注行为片段与哪些已标注偏好片段相似”,再通过最优传输计划为未标注片段对生成伪偏好标签。这样,少量人工反馈可以撬动大量离线数据,进而训练更稳定的奖励函数。

论文:Video-Based Optimal Transport for Feedback-Efficient Offline Preference-Based Reinforcement Learning作者:Tung M. Luu、Hwanhee Kim、Younghwan Lee、Chang D. Yoo机构:KAIST会议:ICML 2026代码:https://github.com/tunglm2203/votp论文地址:https://arxiv.org/abs/2606.16856

1. 背景:奖励工程为什么仍然难

强化学习依赖奖励函数。只要奖励设计得好,智能体可以在 Atari、棋类、连续控制和机器人任务中取得很强表现。但真实任务的奖励经常很难写。比如让机械臂“把香蕉拿起来”,稀疏成功奖励太难学,密集奖励又要精心设计抓取、高度、接触、姿态等细节;稍有偏差,策略可能学到看似高分但并不符合人类意图的捷径。 偏好强化学习(Preference-based RL, PbRL)试图绕开手写奖励。人类教师只需比较两段轨迹视频,标注哪段更好,模型再根据这些比较学习奖励函数。这个范式更贴近人类反馈,也更适合那些“结果好坏容易判断、奖励细节难以编码”的任务。 但 PbRL 的标注成本很高。有效奖励模型需要覆盖足够多的状态和动作区域,否则很容易只在少量示例附近给出合理分数,一旦策略走到未覆盖区域就出现误判。已有工作常常需要数百到数千次偏好查询。对机器人任务来说,这意味着大量视频片段展示、人工比较、数据管理和重复训练,阻碍了 PbRL 在低反馈预算场景下落地。 VOTP 抓住了一个容易被忽视的事实:偏好标注本身通常是视频驱动的。人在比较轨迹时,看到的是对象位置、动作进展、失败模式和时序动态。既然如此,视频基础模型在大规模视频语料上学到的时空表征,可能提供一种低成本的“行为相似性”度量,用来帮助少量偏好向未标注数据传播。

2. 核心思想:在视频潜空间里传播偏好

VOTP 的输入包括两个部分。第一部分是少量已标注片段对,例如 10 对视频比较,每一对带有偏好标签。第二部分是离线数据集中大量未标注片段对,它们不需要额外人工标注,只需从已有轨迹中采样并渲染成短视频。 方法包含两个关键组件:

  • 用视频基础模型把轨迹片段编码成潜向量。论文采用 S3D 作为主要视频编码器,它在 HowTo100M 等大规模视频数据上预训练,能够捕捉帧内空间结构和跨帧动作动态。
  • 用最优传输在已标注片段集合与未标注片段集合之间建立软对齐。每个未标注片段不是硬匹配到一个最近邻,而是通过传输计划与多个已标注片段形成概率对应关系。

这种设计的关键在于“相对对齐”。假设已标注片段中,A 优于 B。对于一个未标注片段对 X 和 Y,如果最优传输显示 X 更像 A、Y 更像 B,那么 VOTP 就倾向于推断 X 优于 Y;如果对应关系反过来,则偏好也反转。论文把所有已标注偏好关系汇总成一个偏好矩阵,再结合最优传输计划计算未标注片段对的偏好分数。 这比简单最近邻更稳健。最近邻方法只看最像的样本,容易受偶然外观相似影响;均值聚类会丢失细粒度行为差异;相似度加权虽然更平滑,但没有显式利用“偏好对”的相对结构。VOTP 使用最优传输同时考虑多个片段之间的全局匹配关系,相当于在视觉行为空间中做更结构化的偏好传播。

3. 方法流程:从伪标签到奖励学习

在形式上,PbRL 通常先收集片段对及偏好标签,再用 Bradley-Terry 模型训练奖励函数。给定两段轨迹,奖励模型会比较两段轨迹累计奖励的相对大小,并通过交叉熵损失拟合人类偏好。训练好奖励函数后,离线数据中的状态动作对会被重新标注奖励,再交给离线强化学习算法训练策略。 VOTP 保留这一主流程,但把偏好数据集从“少量人工标注”扩展为“少量人工标注 + 大量高置信伪标注”。具体步骤如下: 首先,从离线数据中采样轨迹片段,并将每段轨迹渲染为短视频。每个视频片段经视频基础模型编码为潜向量。然后,VOTP 将已标注片段和待推断的未标注片段看作两个经验分布,用距离函数构造传输代价,并通过 Sinkhorn 算法求解熵正则化最优传输。论文使用 POT 工具箱实现这一计算,以兼顾效率和数值稳定性。 接着,方法根据传输计划和已标注偏好矩阵,为未标注片段对计算归一化偏好分数。若分数绝对值高于阈值,就生成明确偏好标签;若分数接近零,则可视为二者难以区分或同等偏好。这一阈值承担了质量控制作用:阈值越高,保留下来的伪标签越可信,但数量越少;阈值过低,则伪标签覆盖更广但噪声更大。 最后,人工标签和伪标签一起训练奖励模型。奖励模型再为离线 RL 数据重打奖励,论文采用 IQL 作为策略优化算法。值得注意的是,VOTP 并不绑定某个特定离线 RL 算法,它的贡献集中在奖励学习阶段。

4. 实验设置:低反馈预算下检验奖励学习

论文主要回答五个问题:VOTP 是否能在低标注场景提升反馈效率;每个组件是否必要;关键超参数如何影响性能;视频扰动下是否鲁棒;真实机器人任务上是否仍然有效。 实验覆盖两个模拟基准和真实机器人任务。模拟部分包括 D4RL locomotion 和 MetaWorld manipulation。D4RL 使用 Hopper、Walker2d 等连续控制任务,指标是归一化分数;MetaWorld 使用 Door Open、Drawer Open、Plate Slide、Sweep Into 等机械臂操作任务,指标是成功率。 标注预算非常低:主实验用 10 对已标注偏好作为初始监督。对于伪标注,D4RL 采样 1 万个未标注查询,MetaWorld 采样 5 万个未标注查询。为了公平比较,策略和奖励模型训练设置与 PbRL 基线保持一致,差异主要来自奖励学习方式。 基线包括两类。一类不显式学习奖励,如 IPL、CPL、DPPO;另一类显式学习奖励,如 P-IQL、SURF、LiRE、APPO、FTB。论文还加入 Oracle 作为上界式参考,即使用合成偏好标注未标注数据。

5. 主要结果:少量反馈也能学到有效奖励

主结果显示,显式奖励建模在低数据场景下通常比直接偏好优化更稳健。没有奖励模型的 IPL、CPL、DPPO 在多个任务上表现不稳定;P-IQL 虽然学习奖励模型,但只有少量人工偏好,覆盖不足,因此在 MetaWorld 上平均成功率较低。 VOTP 的优势在于,它把大量未标注片段转化为可用偏好监督,缓解奖励模型的数据覆盖问题。在 D4RL 上,VOTP 的 locomotion 平均分达到 92.8,接近 IQL 使用真实奖励时的 93.6,也高于 FTB 的 85.4 和 P-IQL 的 65.3。在 MetaWorld 上,VOTP 平均成功率为 67.6,高于 SURF、FTB、P-IQL 等多数基线,仅低于 Oracle 和部分任务上的 LiRE。 从任务细节看,VOTP 在 Hopper medium-replay、Walker2d medium-expert、Door Open、Plate Slide 等任务上表现突出。尤其是 Door Open,VOTP 使用少量人工反馈与伪标签后达到 84.0 的成功率,与 LiRE 持平,并显著高于 P-IQL。 论文对比了几种伪标签生成方式:最近邻式的 SIM-individual、类均值式的 SIM-mean、相似度加权的 SIM-weighted,以及 VOTP。结果表明,简单相似度传播容易丢失偏好对中的细粒度差异,而 VOTP 通过最优传输建模相对对齐,生成的伪标签更可靠,学习曲线也更稳定。

6. 反馈效率:10 个偏好标签能做到什么

论文进一步改变人工偏好标签数量,观察 P-IQL、SURF 和 VOTP 的性能随标注预算变化。结果非常直观:没有伪标签时,P-IQL 在 D4RL 上通常需要 50 到 100 个偏好标签才能接近任务奖励训练;在 MetaWorld 上,需求可能上升到约 1000 个标签。 VOTP 则显著降低了这一门槛。除 Walker medium-replay 外,它通常用更少标签达到或接近任务奖励训练水平。在 Door Open 中,VOTP 只用 10 个偏好标签就超过了真实奖励训练策略。这并不意味着伪标签永远比真实奖励更好,而是说明在离线数据和视觉表征提供足够结构时,偏好传播可以弥补人工监督稀缺。

阈值实验也揭示了伪标签质量和数量之间的平衡。偏好阈值升高时,模型只保留更确定的伪标签,性能通常先提升;但阈值过高会丢掉太多伪标签,导致训练信号不足。实际使用中,阈值需要结合偏好分数分布和未标注数据规模调节。 奖励相关性分析进一步解释了性能来源。在 Door Open 中,VOTP 学到的奖励与真实奖励的 Pearson 相关性达到 0.93,而 P-IQL 只有 0.57。这说明伪标签扩展了奖励学习对状态动作空间的覆盖,使奖励模型不再只在极少量标注片段附近可靠。

7. 鲁棒性与真实机器人验证

由于 VOTP 依赖视频基础模型表征,一个自然问题是:如果视觉环境变化,伪标签是否会失效?论文在 MetaWorld 中加入光照位置与方向变化、环境光变化、纹理变化,以及动态视频背景扰动。结果显示,VOTP 在这些视觉干扰下仍保持较强表现,Door Open 和 Drawer Open 的平均性能没有灾难性下降,部分光照变化下甚至略有提升。 这与方法假设相符:大规模视频预训练使 ViFM 表征对视角、光照、背景等非任务因素具备一定不变性。对机器人来说,这一点很重要,因为真实环境中外观变化无法完全控制。 真实机器人实验使用 7 自由度 Rethink Sawyer 机械臂,任务包括 Lift Banana 和 Drawer Open。每个任务通过键盘遥操作收集演示,并让人类教师比较视频片段。标注预算仍然很低:Lift Banana 使用 5 个偏好标签,Drawer Open 使用 10 个偏好标签;同时分别使用 2000 和 3000 个未标注片段对进行伪标注。

真实机器人结果显示,VOTP 在 Lift Banana 上成功率达到 80%,高于 BC 的 20% 和 P-IQL 的 50%;在 Drawer Open 上达到 70%,高于 BC 的 40% 和 P-IQL 的 50%。更重要的是奖励曲线:P-IQL 会在失败轨迹的某些时间段给出偏高奖励,而 VOTP 对成功与失败轨迹的奖励分离更清晰。这说明未标注数据不仅提升最终策略,也让奖励模型更少误判失败行为。

8. 为什么这篇论文值得关注

VOTP 的价值不在于提出一个更复杂的奖励网络,而在于把三类工具接到了一起:偏好强化学习、视频基础模型和最优传输。它把“少量人类偏好”转化为一种可传播的结构信号,让离线数据中的未标注视频片段也参与奖励学习。 这对机器人学习尤其有意义。机器人任务中,人工偏好比手写奖励更自然,但偏好标注仍然昂贵;离线数据却往往可以通过演示、历史轨迹或模拟环境大量获得。VOTP 提供了一条路线:用视频表征识别行为相似性,用最优传输避免粗糙最近邻匹配,再用高置信伪标签扩展奖励学习覆盖面。 同时,这篇论文也提醒我们,视觉基础模型在 RL 中不一定要直接输出奖励。直接让 VLM/ViFM 判断任务完成度可能受提示词、语义偏差和场景分布影响,而 VOTP 更像是把基础模型用作表征度量,再由少量人类偏好决定任务方向。这种“基础模型提供结构,人类反馈提供价值排序”的组合,比纯自动打分更可控。

9. 局限与未来方向

论文也指出了两个主要局限。 首先,VOTP 依赖预训练视频基础模型。如果 ViFM 的表征本身带有偏差,或者不能捕捉某类任务的关键差异,伪标签质量就会下降。比如精细接触力、透明物体、非视觉状态或需要长期因果判断的任务,可能不是普通视频表征擅长的区域。因此,部署到安全关键机器人前仍需要严格验证策略行为,而不能只相信伪标签扩增。 其次,最优传输计算会随标注片段和未标注片段规模增长而变重。论文实验中成本可控,但更大规模数据、更长视频片段或在线迭代场景可能需要近似传输、分层传输或更高效的检索预筛选。 未来可以沿三条方向扩展。第一,使用更强视频模型或机器人视频预训练模型,提升对操作细节的敏感性。第二,把 VOTP 与主动学习结合,让系统优先请求那些最能改善传输结构的人类偏好。第三,把伪标签置信度、奖励不确定性和策略安全约束联合起来,避免错误偏好在训练中被放大。

10. 小结

VOTP 面向一个非常实际的问题:如何在只有极少人工偏好的情况下,让离线偏好强化学习仍能学到有用奖励。它利用视频基础模型把行为片段嵌入语义丰富的时空表征空间,再用最优传输把已标注偏好传播到大量未标注片段对,从而生成高置信伪偏好标签。 实验表明,在 D4RL、MetaWorld 和真实 Sawyer 机器人任务上,VOTP 在低反馈预算下显著优于多种离线 PbRL 基线,并能在视觉扰动下保持鲁棒。更重要的是,它给出了一个清晰启示:在人类偏好昂贵、离线数据充足、行为又天然以视频呈现的场景中,视频表征与结构化偏好传播可能是提高反馈效率的一条有效路径。 论文地址:https://arxiv.org/abs/2606.16856

成为VIP会员查看完整内容
8

相关内容

【ICML2022】分支强化学习
专知会员服务
44+阅读 · 2022年7月22日
2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
67+阅读 · 2021年5月23日
一文梳理ICML 2022中图机器学习热点和趋势
PaperWeekly
12+阅读 · 2022年8月19日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
0+阅读 · 6月14日
Arxiv
0+阅读 · 5月18日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员