Human-Robot Collaboration (HRC) plays an important role in assembly tasks by enabling robots to plan and adjust their motions based on interactive, real-time human instructions. However, such instructions are often linguistically ambiguous and underspecified, making it difficult to generate physically feasible and cooperative robot behaviors. To address this challenge, many studies have applied Vision-Language Models (VLMs) to interpret high-level instructions and generate corresponding actions. Nevertheless, VLM-based approaches still suffer from hallucinated reasoning and an inability to anticipate physical execution failures. To address these challenges, we propose an HRC framework that augments a VLM-based reasoning with a dual-correction mechanism: an internal correction model that verifies logical consistency and task feasibility prior to action execution, and an external correction model that detects and rectifies physical failures through post-execution feedback. Simulation ablation studies demonstrate that the proposed method improves the success rate compared to baselines without correction models. Our real-world experiments in collaborative assembly tasks supported by object fixation or tool preparation by an upper body humanoid robot further confirm the framewor's effectiveness in enabling interactive replanning across different collaborative tasks in response to human instructions, validating its practical feasibility.


翻译:人机协作(HRC)在装配任务中发挥着重要作用,它使机器人能够根据交互式实时人类指令规划并调整其动作。然而,此类指令往往存在语言歧义且描述不完整,导致难以生成物理上可行且具协作性的机器人行为。为应对这一挑战,许多研究应用视觉-语言模型(VLMs)来解析高层指令并生成相应动作。尽管如此,基于VLM的方法仍存在幻觉推理问题,且无法预判物理执行失败。为解决这些难题,我们提出一种HRC框架,通过双重修正机制增强基于VLM的推理:内部修正模型在动作执行前验证逻辑一致性与任务可行性;外部修正模型通过执行后反馈检测并纠正物理故障。仿真消融实验表明,相较于无修正模型的基线方法,所提方法显著提升了任务成功率。我们在协作装配任务中开展的实物实验(由上半身人形机器人进行物体固定或工具准备)进一步证实了该框架在不同协作任务中响应人类指令实现交互式重规划的有效性,验证了其实际可行性。

0
下载
关闭预览

相关内容

多模态融合与视觉-语言模型:面向机器人视觉的综述
专知会员服务
35+阅读 · 2025年4月5日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
13+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
多模态融合与视觉-语言模型:面向机器人视觉的综述
专知会员服务
35+阅读 · 2025年4月5日
相关资讯
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
13+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员