Contact variability, sensing uncertainty, and external disturbances make grasp execution stochastic. Expected-quality objectives ignore tail outcomes and often select grasps that fail under adverse contact realizations. Risk-sensitive POMDPs address this failure mode, but many use particle-filter beliefs that scale poorly, obstruct gradient-based optimization, and estimate Conditional Value-at-Risk (CVaR) with high-variance approximations. We instead formulate grasp acquisition as variational inference over latent contact parameters and object pose, representing the belief with a differentiable Gaussian mixture. We use Gumbel-Softmax component selection and location-scale reparameterization to express samples as smooth functions of the belief parameters, enabling pathwise gradients through a differentiable CVaR surrogate for direct optimization of tail robustness. In simulation, our variational neural belief improves robust grasp success under contact-parameter uncertainty and exogenous force perturbations while reducing planning time by roughly an order of magnitude relative to particle-filter model-predictive control. On a serial-chain robot arm with a multifingered hand, we validate grasp-and-lift success under object-pose uncertainty against a Gaussian baseline. Both methods succeed on the tested perturbations, but our controller terminates in fewer steps and less wall-clock time while achieving a higher tactile grasp-quality proxy. Our learned belief also calibrates risk more accurately, keeping mean absolute calibration error below 0.14 across tested simulation regimes, compared with 0.58 for a Cross-Entropy Method planner.


翻译:接触变异性、感知不确定性及外部扰动导致抓取执行具有随机性。期望质量目标忽略了尾部结果,常选择在不利接触实现下失败的抓取方案。风险敏感型部分可观测马尔可夫决策过程(POMDP)虽能应对此类失效模式,但多数采用粒子滤波信念,其扩展性差、阻碍梯度优化,且估计条件风险价值(CVaR)时存在高方差近似。我们转而将抓取获取问题建模为对潜在接触参数与物体位姿的变分推断,采用可微高斯混合分布表征信念。通过Gumbel-Softmax成分选择与位置-尺度重参数化,将样本表达为信念参数的平滑函数,从而利用可微CVaR替代函数实现路径梯度直接优化尾部鲁棒性。仿真实验表明,在接触参数不确定性与外生力扰动条件下,所提变分神经信念提升了鲁棒抓取成功率,同时将规划时间相比粒子滤波模型预测控制降低约一个数量级。在多指手串联机械臂平台上,我们验证了物体位姿不确定性下的抓举成功率(相较于高斯基线方法)。两者在测试扰动下均能成功执行,但本控制器在更少步数与更短时钟时间内完成抓取,且触觉抓取质量代理指标更高。此外,学习得到的信念能够更精确地校准风险,在所有测试仿真场景下平均校准绝对误差低于0.14,而交叉熵方法规划器为0.58。

0
下载
关闭预览

相关内容

《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
《人机协作集成模型中的不确定性捕获》博士论文
专知会员服务
25+阅读 · 2025年10月2日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
《人机协作集成模型中的不确定性捕获》博士论文
专知会员服务
25+阅读 · 2025年10月2日
相关基金
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员