Teaching robots dexterous skills from human videos remains challenging due to the reliance on low-level trajectory imitation, which fails to generalize across object types, spatial layouts, and manipulator configurations. We propose Graph-Fused Vision-Language-Action (GF-VLA), a framework that enables dual-arm robotic systems to perform task-level reasoning and execution directly from RGB and Depth human demonstrations. GF-VLA first extracts Shannon-information-based cues to identify hands and objects with the highest task relevance, then encodes these cues into temporally ordered scene graphs that capture both hand-object and object-object interactions. These graphs are fused with a language-conditioned transformer that generates hierarchical behavior trees and interpretable Cartesian motion commands. To improve execution efficiency in bimanual settings, we further introduce a cross-hand selection policy that infers optimal gripper assignment without explicit geometric reasoning. We evaluate GF-VLA on four structured dual-arm block assembly tasks involving symbolic shape construction and spatial generalization. Experimental results show that the information-theoretic scene representation achieves over 95 percent graph accuracy and 93 percent subtask segmentation, supporting the LLM planner in generating reliable and human-readable task policies. When executed by the dual-arm robot, these policies yield 94 percent grasp success, 89 percent placement accuracy, and 90 percent overall task success across stacking, letter-building, and geometric reconfiguration scenarios, demonstrating strong generalization and robustness across diverse spatial and semantic variations.


翻译:从人类视频中教授机器人灵巧技能仍然具有挑战性,这主要源于对低级轨迹模仿的依赖,该方法难以泛化至不同的物体类型、空间布局和机械臂配置。我们提出了图融合视觉-语言-动作模型(GF-VLA),该框架使双臂机器人系统能够直接从RGB和深度人类演示中执行任务级推理与动作。GF-VLA首先提取基于香农信息的线索,以识别任务相关性最高的手部和物体,然后将这些线索编码为时序有序的场景图,以捕捉手-物体和物体-物体之间的交互。这些图与一个语言条件化的Transformer模型融合,该模型生成分层行为树和可解释的笛卡尔运动指令。为了提高双臂场景下的执行效率,我们进一步引入了跨手选择策略,该策略无需显式几何推理即可推断出最优的夹爪分配方案。我们在四个结构化的双臂积木装配任务上评估了GF-VLA,这些任务涉及符号形状构建和空间泛化。实验结果表明,基于信息论的场景表示实现了超过95%的图准确率和93%的子任务分割准确率,支持大语言模型规划器生成可靠且人类可读的任务策略。当由双臂机器人执行时,这些策略在堆叠、字母构建和几何重构等场景中实现了94%的抓取成功率、89%的放置准确率和90%的整体任务成功率,展现了在不同空间和语义变化下强大的泛化能力和鲁棒性。

0
下载
关闭预览

相关内容

视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
多模态融合与视觉-语言模型:面向机器人视觉的综述
专知会员服务
35+阅读 · 2025年4月5日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
国家自然科学基金
13+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月26日
VIP会员
相关基金
国家自然科学基金
13+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员