Recent advances in large vision-language models (VLMs) have demonstrated generalizable open-vocabulary perception and reasoning, yet their real-robot manipulation capability remains unclear for long-horizon, closed-loop execution in unstructured, in-the-wild environments. Prior VLM-based manipulation pipelines are difficult to compare across different research groups' setups, and many evaluations rely on simulation, privileged state, or specially designed setups. We present AgenticLab, a model-agnostic robot agent platform and benchmark for open-world manipulation. AgenticLab provides a closed-loop agent pipeline for perception, task decomposition, online verification, and replanning. Using AgenticLab, we benchmark state-of-the-art VLM-based agents on real-robot tasks in unstructured environments. Our benchmark reveals several failure modes that offline vision-language tests (e.g., VQA and static image understanding) fail to capture, including breakdowns in multi-step grounding consistency, object grounding under occlusion and scene changes, and insufficient spatial reasoning for reliable manipulation. We will release the full hardware and software stack to support reproducible evaluation and accelerate research on general-purpose robot agents.


翻译:近期大规模视觉语言模型(VLMs)的发展已展现出可泛化的开放词汇感知与推理能力,然而其在非结构化、真实世界环境中进行长时程、闭环执行的真实机器人操作能力仍不明确。现有的基于VLM的操作流程难以在不同研究团队的实验设置间进行比较,且多数评估依赖于仿真、特权状态或特殊设计的实验环境。本文提出AgenticLab,一个面向开放世界操作的模型无关机器人智能体平台与基准测试框架。AgenticLab提供包含感知、任务分解、在线验证与重规划的闭环智能体流程。基于AgenticLab,我们在非结构化环境的真实机器人任务上对最先进的基于VLM的智能体进行了基准测试。我们的基准测试揭示了离线视觉语言测试(例如视觉问答与静态图像理解)未能捕捉的若干故障模式,包括多步指称一致性失效、遮挡与场景变化下的物体定位困难,以及空间推理能力不足以支撑可靠操作等问题。我们将公开完整的硬件与软件栈,以支持可复现的评估,并加速通用机器人智能体的研究。

0
下载
关闭预览

相关内容

【综述】 机器人学习中的世界模型:全面综述
专知会员服务
20+阅读 · 5月4日
智能体工程(Agent Engineering)
专知会员服务
35+阅读 · 2025年12月31日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
《基础模型在现实世界机器人应用》综述
专知会员服务
56+阅读 · 2024年2月11日
AI Agent:基于大模型的自主智能体
专知会员服务
249+阅读 · 2023年9月9日
【人机融合智能】人机融合智能的现状与展望
产业智能官
12+阅读 · 2020年3月18日
国外有人/无人平台协同作战概述
无人机
123+阅读 · 2019年5月28日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员