Estimating physical properties is critical for safe and efficient autonomous robotic manipulation, particularly during contact-rich interactions. In such settings, vision and tactile sensing provide complementary information about object geometry, pose, inertia, stiffness, and contact dynamics, such as stick-slip behavior. However, these properties are only indirectly observable and cannot always be modeled precisely (e.g., deformation in non-rigid objects coupled with nonlinear contact friction), making the estimation problem inherently complex and requiring sustained exploitation of visuo-tactile sensory information during action. Existing visuo-tactile perception frameworks have primarily emphasized forceful sensor fusion or static cross-modal alignment, with limited consideration of how uncertainty and beliefs about object properties evolve over time. Inspired by human multi-sensory perception and active inference, we propose the Cross-Modal Latent Filter (CMLF) to learn a structured, causal latent state-space of physical object properties. CMLF supports bidirectional transfer of cross-modal priors between vision and touch and integrates sensory evidence through a Bayesian inference process that evolves over time. Real-world robotic experiments demonstrate that CMLF improves the efficiency and robustness of latent physical properties estimation under uncertainty compared to baseline approaches. Beyond performance gains, the model exhibits perceptual coupling phenomena analogous to those observed in humans, including susceptibility to cross-modal illusions and similar trajectories in learning cross-sensory associations. Together, these results constitutes a significant step toward generalizable, robust and physically consistent cross-modal integration for robotic multi-sensory perception.


翻译:估计物理属性对于安全高效的自主机器人操作至关重要,尤其是在接触丰富的交互场景中。此类情境下,视觉和触觉传感提供了关于物体几何、姿态、惯性、刚度以及接触动力学(如粘滑行为)的互补信息。然而,这些属性仅能间接观测,且难以精确建模(例如,非刚性物体的变形与非线性接触摩擦的耦合),使得估计问题本身具有复杂性,并需要在动作过程中持续利用视触觉感官信息。现有的视触觉感知框架主要侧重于强制的传感器融合或静态跨模态对齐,较少考虑关于物体属性的不确定性和信念随时间的演化机制。受人类多感官感知和主动推理的启发,我们提出了跨模态潜在滤波器(CMLF),用于学习物理物体属性的结构化因果潜在状态空间。CMLF支持视觉与触觉之间跨模态先验的双向传递,并通过随时间演化的贝叶斯推理过程整合感官证据。真实机器人实验表明,与基线方法相比,CMLF在不确定性条件下提高了潜在物理属性估计的效率和鲁棒性。除性能提升外,该模型表现出与人类相似的感知耦合现象,包括对跨模态错觉的易感性以及学习跨感官关联中的相似轨迹。这些结果共同标志着向通用、鲁棒且物理一致的机器人多感官感知跨模态集成迈出了重要一步。

0
下载
关闭预览

相关内容

【斯坦福博士论文】从互联网视频中学习感知物理世界
专知会员服务
23+阅读 · 2024年12月30日
基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
仿生感存算一体视觉系统:仿生机制、设计原理及其应用
专知会员服务
30+阅读 · 2023年11月30日
【机器视觉】机器视觉全面解析
产业智能官
12+阅读 · 2018年11月12日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
《量子技术的军事任务技术适配与利用》
专知会员服务
0+阅读 · 20分钟前
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员