Solving Inverse Kinematics (IK) for arbitrary kinematic trees presents significant challenges due to their high-dimensionality, redundancy, and complex inter-branch constraints. Conventional optimization-based solvers can be sensitive to initialization and suffer from local minima or conflicting gradients. At the same time, existing learning-based approaches are often tied to a predefined number of end-effectors and a fixed training objective, limiting their reusability across various robot morphologies and task requirements. To address these limitations, we introduce IKDiffuser, a scalable IK solver built upon conditional diffusion-based generative models, which learns the distribution of the configuration space conditioned on end-effector poses. We propose a structure-agnostic formulation that represents end-effector poses as a sequence of tokens, leading to a unified framework that handles varying numbers of end-effectors while learning the implicit kinematic structures entirely from data. Beyond standard IK generation, IKDiffuser handles partially specified goals via a masked marginalization mechanism that conditions only on a subset of end-effector constraints. Furthermore, it supports adding task objectives at inference through objective-guided sampling, enabling capabilities such as warm-start initialization and manipulability maximization without retraining. Extensive evaluations across seven diverse robotic platforms demonstrate that IKDiffuser significantly outperforms state-of-the-art baselines in accuracy, solution diversity, and collision avoidance. Moreover, when used to initialize optimization-based solvers, IKDiffuser significantly boosts success rates on challenging redundant systems with high Degrees of Freedom (DoF), such as the 29-DoF Unitree G1 humanoid, from 21.01% to 96.96% while reducing computation time to the millisecond range.


翻译:针对任意运动树求解逆运动学(IK)问题,因其高维性、冗余性及分支间复杂的约束关系而面临重大挑战。传统的基于优化的求解器对初始化敏感,易陷入局部极小值或梯度冲突。同时,现有的基于学习的方法通常受限于预定义的末端执行器数量和固定的训练目标,难以在不同机器人构型与任务需求间复用。为应对这些局限,我们提出了IKDiffuser——一种基于条件扩散生成模型的可扩展IK求解器,该模型学习以末端执行器位姿为条件的构型空间分布。我们提出了一种与结构无关的建模方法,将末端执行器位姿表示为令牌序列,从而构建出能够处理可变数量末端执行器、并完全从数据中学习隐含运动结构的统一框架。除标准IK生成外,IKDiffuser通过掩码边缘化机制处理部分指定的目标,该机制仅以末端执行器约束的子集为条件。此外,模型支持在推理阶段通过目标引导采样添加任务目标,无需重新训练即可实现热启动初始化、可操作度最大化等功能。在七种不同机器人平台上进行的广泛实验表明,IKDiffuser在精度、解多样性及避障性能上均显著优于当前最先进的基线方法。更重要的是,当用于初始化基于优化的求解器时,IKDiffuser能将高自由度冗余系统(如29自由度的宇树G1人形机器人)的求解成功率从21.01%提升至96.96%,同时将计算时间缩短至毫秒量级。

0
下载
关闭预览

相关内容

专知会员服务
65+阅读 · 2021年4月22日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
资源 | Github项目:斯坦福大学CS-224n课程中深度NLP模型的PyTorch实现
黑龙江大学自然语言处理实验室
10+阅读 · 2017年11月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月16日
VIP会员
相关VIP内容
专知会员服务
65+阅读 · 2021年4月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员