General-purpose robot reward models are typically trained to predict absolute task progress from expert demonstrations, providing only local, frame-level supervision. While effective for expert demonstrations, this paradigm scales poorly to large-scale robotics datasets where failed and suboptimal trajectories are abundant and assigning dense progress labels is ambiguous. We introduce Robometer, a scalable reward modeling framework that combines intra-trajectory progress supervision with inter-trajectory preference supervision. Robometer is trained with a dual objective: a frame-level progress loss that anchors reward magnitude on expert data, and a trajectory-comparison preference loss that imposes global ordering constraints across trajectories of the same task, enabling effective learning from both real and augmented failed trajectories. To support this formulation at scale, we curate RBM-1M, a reward-learning dataset comprising over one million trajectories spanning diverse robot embodiments and tasks, including substantial suboptimal and failure data. Across benchmarks and real-world evaluations, Robometer learns more generalizable reward functions than prior methods and improves robot learning performance across a diverse set of downstream applications. Code, model weights, and videos at https://robometer.github.io/.


翻译:通用机器人奖励模型通常通过预测专家演示中的绝对任务进度进行训练,仅提供局部、帧级别的监督。尽管对专家演示有效,但该范式难以扩展至大规模机器人数据集,因为其中包含大量失败和次优轨迹,且分配密集进度标签存在模糊性。我们提出Robometer,一种可扩展的奖励建模框架,结合了轨迹内进度监督与轨迹间偏好监督。Robometer通过双重目标进行训练:帧级进度损失将奖励幅度锚定在专家数据上,以及轨迹比较偏好损失对同一任务的不同轨迹施加全局排序约束,从而能够从真实和增强的失败轨迹中有效学习。为支持该框架的大规模实现,我们构建了RBM-1M奖励学习数据集,包含跨越多种机器人本体和任务的超百万条轨迹,其中包含大量次优及失败数据。在基准测试和实际评估中,Robometer相比现有方法学习了更具泛化能力的奖励函数,并在多样化的下游应用中提升了机器人学习性能。代码、模型权重及演示视频详见 https://robometer.github.io/。

0
下载
关闭预览

相关内容

【CMU博士论文】构建自适应性强的通用机器人,248页pdf
专知会员服务
37+阅读 · 2024年6月10日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
一文读懂机器学习概率图模型(附示例&学习资源)
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关VIP内容
【CMU博士论文】构建自适应性强的通用机器人,248页pdf
专知会员服务
37+阅读 · 2024年6月10日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员