Robots are increasingly expected to execute open ended natural language requests in human environments, which demands reliable long horizon execution under partial observability. This is especially challenging for humanoids because locomotion and manipulation are tightly coupled through stance, reachability, and balance. We present a humanoid agent framework that turns VLM plans into verifiable task programs and closes the loop with multi object 3D geometric supervision. A VLM planner compiles each instruction into a typed JSON sequence of subtasks with explicit predicate based preconditions and success conditions. Using SAM3 and RGB-D, we ground all task relevant entities in 3D, estimate object centroids and extents, and evaluate predicates over stable frames to obtain condition level diagnostics. The supervisor uses these diagnostics to verify subtask completion and to provide condition-level feedback for progression and replanning. We execute each subtask by coordinating humanoid locomotion and whole-body manipulation, selecting feasible motion primitives under reachability and balance constraints. Experiments on tabletop manipulation and long horizon humanoid loco manipulation tasks show improved robustness from multi object grounding, temporal stability, and recovery driven replanning.


翻译:机器人日益需要在人类环境中执行开放式的自然语言指令,这要求其在部分可观测条件下具备可靠的长时程执行能力。对于仿人机器人而言,这一挑战尤为严峻,因为其运动与操作通过支撑状态、可达性与平衡约束紧密耦合。本文提出一种仿人机器人智能体框架,该框架将视觉语言模型(VLM)生成的规划转化为可验证的任务程序,并通过多目标三维几何监督实现闭环控制。VLM规划器将每条指令编译为具有显式基于谓词的前置条件与成功条件的类型化JSON子任务序列。利用SAM3模型与RGB-D数据,我们在三维空间中锚定所有任务相关实体,估计物体质心与边界范围,并在稳定帧上评估谓词以获取条件级诊断信息。监督器利用这些诊断结果验证子任务完成状态,并为任务推进与重规划提供条件级反馈。每个子任务通过协调仿人机器人的全身运动与操作来执行,在满足可达性与平衡约束的前提下选择可行的运动基元。在桌面操作任务及长时程仿人机器人运动-操作协同任务上的实验表明,多目标三维锚定、时序稳定性与基于恢复的重规划机制显著提升了系统的鲁棒性。

0
下载
关闭预览

相关内容

面向具身智能与机器人仿真的三维生成:综述
专知会员服务
14+阅读 · 4月30日
AI大模型驱动的具身智能人形机器人技术与展望
专知会员服务
27+阅读 · 2025年5月26日
【牛津大学博士论文】深度具身智能体的空间推理与规划
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
具身智能:突破人机边界,AI产业的下一站
专知会员服务
88+阅读 · 2024年5月18日
人形机器人行业深度:具身智能,迈向广阔蓝海市场
专知会员服务
51+阅读 · 2023年7月2日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
17+阅读 · 2019年1月30日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
8+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
13+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
8+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
12+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员