Assembly hinges on reliably forming connections between parts; yet most robotic approaches plan assembly sequences and part poses while treating connectors as an afterthought. Connections represent the foundational physical constraints of assembly execution; while task planning sequences operations, the precise establishment of these constraints ultimately determines assembly success. In this paper, we treat connections as explicit, primary entities in assembly representation, directly encoding connector types, specifications, and locations for every assembly step. Drawing inspiration from how humans learn assembly tasks through step-by-step instruction manuals, we present Manual2Skill++, a vision-language framework that automatically extracts structured connection information from assembly manuals. We encode assembly tasks as hierarchical graphs where nodes represent parts and sub-assemblies, and edges explicitly model connection relationships between components. A large-scale vision-language model parses symbolic diagrams and annotations in manuals to instantiate these graphs, leveraging the rich connection knowledge embedded in human-designed instructions. We curate a dataset containing over 20 assembly tasks with diverse connector types to validate our representation extraction approach, and evaluate the complete task understanding-to-execution pipeline across four complex assembly scenarios in simulation, spanning furniture, toys, and manufacturing components with real-world correspondence. More detailed information can be found at https://nus-lins-lab.github.io/Manual2SkillPP/


翻译:装配的核心在于可靠地建立零件间的连接关系;但现有机器人方法大多在规划装配序列与零件位姿时,将连接件视为次要因素。连接关系构成了装配执行的基础物理约束:尽管任务规划控制操作序列,但能否精准建立这些约束最终决定了装配成败。本文将以连接关系作为装配表征中的显式首要实体,直接编码每个装配步骤中的连接件类型、规格与位置。受人类通过逐步说明手册学习装配任务的启发,我们提出Manual2Skill++框架——一种能从装配手册自动提取结构化连接信息的视觉-语言框架。我们将装配任务编码为层次化图结构:节点代表零件与子装配体,边显式建模组件间的连接关系。通过大规模视觉-语言模型解析手册中的符号化图示与注释,可实例化上述图结构,充分挖掘人类设计指令中蕴含的丰富连接知识。我们构建了涵盖20余种装配任务、包含多种连接件类型的数据集以验证表征提取方法,并在仿真环境中针对家具、玩具及制造业组件等四类复杂装配场景(与真实场景对应)评估了从任务理解到执行的全流程。更多详情请访问https://nus-lins-lab.github.io/Manual2SkillPP/

0
下载
关闭预览

相关内容

【NTU博士论文】机器人装配中的强化学习,136页pdf
专知会员服务
32+阅读 · 2024年8月6日
IROS2020|机器人自主探索与建图算法,代码已开源!
中国图象图形学报
34+阅读 · 2020年9月8日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【NTU博士论文】机器人装配中的强化学习,136页pdf
专知会员服务
32+阅读 · 2024年8月6日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员