The pursuit of robot generalists, agents capable of performing diverse tasks across diverse environments, demands rigorous and scalable evaluation. Yet real-world testing of robot policies remains fundamentally constrained: it is labor-intensive, slow, unsafe at scale, and difficult to reproduce. As policies expand in scope and complexity, these barriers only intensify, since defining "success" in robotics often hinges on nuanced human judgments of execution quality. We introduce RobotArena Infinity, a new benchmarking framework that overcomes these challenges by shifting vision-language-action (VLA) evaluation into large-scale simulated environments augmented with online human feedback. Leveraging advances in vision-language models, 2D-to-3D generative modeling, and differentiable rendering, our approach automatically converts video demonstrations from widely used robot datasets into simulated counterparts. Within these digital twins, we assess VLA policies using both automated vision-language-model-guided scoring and scalable human preference judgments collected from crowdworkers, transforming human involvement from tedious scene setup, resetting, and safety supervision into lightweight preference comparisons. To measure robustness, we systematically perturb simulated environments along multiple axes, including textures and object placements, stress-testing policy generalization under controlled variation. The result is a continuously evolving, reproducible, and scalable benchmark for real-world-trained robot manipulation policies, addressing a critical missing capability in today's robotics landscape.


翻译:追求机器人通用智能体——即能够在多样化环境中执行多样化任务的智能体——需要严谨且可扩展的评估方法。然而,机器人策略的现实世界测试仍然受到根本性限制:它劳动密集、速度缓慢、大规模测试不安全且难以复现。随着策略在范围和复杂性上的扩展,这些障碍只会加剧,因为机器人学中“成功”的定义往往取决于人类对执行质量的细致判断。我们提出了 RobotArena Infinity,这是一个新的基准测试框架,通过将视觉-语言-动作评估转移到结合在线人类反馈的大规模仿真环境中,克服了这些挑战。利用视觉语言模型、2D到3D生成建模以及可微分渲染方面的进展,我们的方法能够自动将广泛使用的机器人数据集中的视频演示转换为对应的仿真版本。在这些数字孪生环境中,我们使用自动化的视觉语言模型引导评分以及从众包工作者收集的可扩展的人类偏好判断来评估 VLA 策略,从而将人类参与从繁琐的场景设置、重置和安全监督转变为轻量级的偏好比较。为了衡量鲁棒性,我们沿着多个维度(包括纹理和物体放置)系统地扰动仿真环境,在受控变化下对策略的泛化能力进行压力测试。其结果是一个持续演进、可复现且可扩展的基准测试,用于评估在现实世界训练的机器人操作策略,弥补了当前机器人领域的一项关键缺失能力。

0
下载
关闭预览

相关内容

专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
新兴反无人机技术与不对称防御对策
专知会员服务
1+阅读 · 18分钟前
《美空军条令出版物 3-60,目标定位(2026版)》
专知会员服务
1+阅读 · 24分钟前
《无人机在冲突地区提供紧急医疗与外科支持》
专知会员服务
1+阅读 · 42分钟前
《定向能武器交战授权治理管道》
专知会员服务
1+阅读 · 49分钟前
《人工智能与海军作战》最新报告
专知会员服务
1+阅读 · 今天14:00
具身AI安全综述:风险、攻击与防御
专知会员服务
2+阅读 · 今天12:02
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
13+阅读 · 5月5日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员