Successful robotic grasping in cluttered environments not only requires a model to visually ground a target object but also to reason about obstructions that must be cleared beforehand. While current vision-language embodied reasoning models show emergent spatial understanding, they remain limited in terms of obstruction reasoning and accessibility planning. To bridge this gap, we present UNOGrasp, a learning-based vision-language model capable of performing visually-grounded obstruction reasoning to infer the sequence of actions needed to unobstruct the path and grasp the target object. We devise a novel multi-step reasoning process based on obstruction paths originated by the target object. We anchor each reasoning step with obstruction-aware visual cues to incentivize reasoning capability. UNOGrasp combines supervised and reinforcement finetuning through verifiable reasoning rewards. Moreover, we construct UNOBench, a large-scale dataset for both training and benchmarking, based on MetaGraspNetV2, with over 100k obstruction paths annotated by humans with obstruction ratios, contact points, and natural-language instructions. Extensive experiments and real-robot evaluations show that UNOGrasp significantly improves obstruction reasoning and grasp success across both synthetic and real-world environments, outperforming generalist and proprietary alternatives. Project website: https://tev-fbk.github.io/UnoGrasp/.


翻译:在杂乱环境中实现成功的机器人抓取不仅需要模型对目标物体进行视觉定位,还需对必须预先清除的障碍物进行推理。尽管当前的视觉语言具身推理模型展现出对空间理解的涌现能力,但在障碍物推理与可达性规划方面仍存在局限。为弥补这一差距,我们提出了UNOGrasp——一种基于学习的视觉语言模型,能够执行基于视觉的障碍物推理,以推断出清除路径并抓取目标物体所需的一系列动作序列。我们设计了一种基于目标物体产生的障碍路径的新型多步推理流程,并通过融入障碍感知的视觉线索来锚定每个推理步骤,从而增强模型的推理能力。UNOGrasp通过可验证的推理奖励机制,结合了监督式微调与强化学习微调。此外,我们基于MetaGraspNetV2构建了大规模数据集UNOBench,用于训练与性能评估,其中包含超过10万条由人工标注的障碍路径,涵盖障碍比例、接触点及自然语言指令。大量实验与真实机器人评估表明,UNOGrasp在合成环境与真实场景中均显著提升了障碍物推理能力与抓取成功率,其性能优于通用模型及专有替代方案。项目网站:https://tev-fbk.github.io/UnoGrasp/。

0
下载
关闭预览

相关内容

大型语言模型推理增强外部知识:综述
专知会员服务
36+阅读 · 2025年6月2日
【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
45+阅读 · 2024年1月24日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员