Modern tactile-language models (TLMs) have shown potential for robot learning tasks, such as material and texture recognition. However, for contact-rich scenarios, these TLMs struggle to understand the physical properties of dynamic objects, such as rotation and sliding directions. For instance, our preliminary experiments reveal that popular TLMs, such as Sparsh and AnyTouch2, exhibit weak performance on basic rotation direction reasoning from GelSight Mini tactile data. This surprising gap inspires us to explore a novel research question: Can we inject physically grounded geometric priors into TLMs to enable reliable contact orientation reasoning of dynamic object properties? To this end, we propose GeoTLM, a novel geometric representation-guided TLM for the perception of dynamic contact events. Our key idea is to preserve and structure tactile shear-field geometry before language-level reasoning, rather than forcing low-resolution tactile tokens into fragile closed-form physics operators. To achieve this, we propose a lightweight (only 14k parameters) yet novel Differentiable Geometric Representation (DGR). Specifically, DGR learns a contact-mask-guided representation in the shear field and aggregates it through an antisymmetric seven-region pooling design, motivated by the physical intuition that rotational contact produces antisymmetric deformation patterns. We conduct experiments on two representative tasks: rotation direction and sliding direction reasoning. Extensive experiments show that GeoTLM improves novel-object rotation accuracy by +14.6% and real-sensor sliding accuracy by +16.2% over the same backbone without the geometric encoder. Overall, our work paves a new way for physically grounded tactile-language reasoning, with strong potential for dynamic object understanding and contact-rich robotic manipulation.


翻译:现代触觉语言模型(TLMs)在机器人学习任务(如材料和纹理识别)中展现出潜力。然而,在密集接触场景中,这些TLMs难以理解动态物体的物理属性,例如旋转和滑动方向。例如,初步实验表明:流行的TLMs(如Sparsh和AnyTouch2)在基于GelSight Mini触觉数据的基本旋转方向推理任务中表现薄弱。这一显著差距启发我们探索新的研究问题:能否将物理基础的几何先验注入TLMs,以实现对动态物体属性的可靠接触方向推理?为此,我们提出GeoTLM——一种面向动态接触事件感知的新型几何表示引导型TLM。核心思想是在语言级推理之前保留并结构化触觉剪切场的几何结构,而非强行将低分辨率触觉令牌输入脆弱的闭式物理算子。为实现该目标,我们提出轻量级(仅14k参数)且新颖的微分几何表示(DGR)。具体而言,DGR在剪切场中学习接触掩码引导的表示,并通过基于物理直觉(旋转接触产生反对称形变模式)设计的反对称七区域池化进行聚合。我们在旋转方向与滑动方向推理两个代表性任务上开展实验。大量实验表明:与无几何编码器的同基准模型相比,GeoTLM在新物体旋转准确率上提升+14.6%,在真实传感器滑动准确率上提升+16.2%。总体而言,本工作为物理基础的触觉语言推理开辟了新路径,在动态物体理解与密集接触机器人操作领域具有强大潜力。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员