VTouch++: A Multimodal Dataset with Vision-Based Tactile Enhancement for Bimanual Manipulation - 专知论文

会员服务 ·

0

数据集 · 操作 · 模态 · 多模 · 交互 ·

VTouch++: A Multimodal Dataset with Vision-Based Tactile Enhancement for Bimanual Manipulation

翻译：VTouch++：一种用于双手操作的基于视觉触觉增强的多模态数据集

Qianxi Hua,Xinyue Li,Zheng Yan,Yang Li,Chi Zhang,Yongyao Li,Yufei Liu

Embodied intelligence has advanced rapidly in recent years; however, bimanual manipulation-especially in contact-rich tasks remains challenging. This is largely due to the lack of datasets with rich physical interaction signals, systematic task organization, and sufficient scale. To address these limitations, we introduce the VTOUCH dataset. It leverages vision based tactile sensing to provide high-fidelity physical interaction signals, adopts a matrix-style task design to enable systematic learning, and employs automated data collection pipelines covering real-world, demand-driven scenarios to ensure scalability. To further validate the effectiveness of the dataset, we conduct extensive quantitative experiments on cross-modal retrieval as well as real-robot evaluation. Finally, we demonstrate real-world performance through generalizable inference across multiple robots, policies, and tasks.

翻译：具身智能近年来取得了快速进展，然而双手操作——尤其是在高接触性任务中——仍面临挑战。这主要归因于缺乏具备丰富物理交互信号、系统性任务组织以及足够规模的数据集。为解决这些局限，我们提出了VTOUCH数据集。该数据集利用基于视觉的触觉感知技术提供高保真物理交互信号，采用矩阵式任务设计以支持系统化学习，并借助自动化数据采集流程覆盖真实世界、需求驱动场景，确保可扩展性。为进一步验证数据集的有效性，我们在跨模态检索以及真实机器人评估方面开展了大量定量实验。最后，我们通过在多种机器人、策略及任务上的泛化推理，展示了真实世界的性能表现。

0

相关内容

数据集

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

14+阅读 · 4月29日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

22+阅读 · 2025年5月30日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

专知会员服务

50+阅读 · 2023年4月28日

加州大学博士论文《多模态传感器系统的稳健可解释预测》

加州大学博士论文《多模态传感器系统的稳健可解释预测》

专知会员服务

64+阅读 · 2023年3月31日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

【多模态智能：表示学习、信息融合和应用】Multimodal Intelligence: Representation Learning, Information Fusion, and Applications，芝加哥大学计算机科学系博士zichao Yang、华盛顿大学西雅图分校副教授xiaodong He等

【多模态智能：表示学习、信息融合和应用】Multimodal Intelligence: Representation Learning, Information Fusion, and Applications，芝加哥大学计算机科学系博士zichao Yang、华盛顿大学西雅图分校副教授xiaodong He等

专知会员服务

118+阅读 · 2019年11月11日

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

专知

16+阅读 · 2022年5月3日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【数字孪生】数字孪生是工业互联网关键技术和重要场景

【数字孪生】数字孪生是工业互联网关键技术和重要场景

产业智能官

39+阅读 · 2019年4月9日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

Facebook Oculus实验室实习生：手势估计最新综述

Facebook Oculus实验室实习生：手势估计最新综述

专知

10+阅读 · 2019年3月12日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

2017-最全手势识别/跟踪相关资源大列表分享（论文、数据集、比赛等）

2017-最全手势识别/跟踪相关资源大列表分享（论文、数据集、比赛等）

深度学习与NLP

64+阅读 · 2017年10月29日

大规模多视角高维图像特征提取

国家自然科学基金

5+阅读 · 2017年12月31日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

基于RGB-D数据的个性化手势交互技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

TouchAI: Exploring human-AI perceptual alignment in touch through language model representations

Arxiv

0+阅读 · 4月28日

A Gesture-Based Visual Learning Model for Acoustophoretic Interactions using a Swarm of AcoustoBots

Arxiv

0+阅读 · 4月21日

A wearable haptic device for edge and surface simulation

Arxiv

0+阅读 · 4月1日

HandX: Scaling Bimanual Motion and Interaction Generation

Arxiv

0+阅读 · 3月30日

SHOW3D: Capturing Scenes of 3D Hands and Objects in the Wild

Arxiv

0+阅读 · 3月30日

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Arxiv

0+阅读 · 3月24日

OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation

Arxiv

0+阅读 · 3月23日

Glove2Hand: Synthesizing Natural Hand-Object Interaction from Multi-Modal Sensing Gloves

Arxiv

0+阅读 · 3月21日

OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation

Arxiv

0+阅读 · 3月19日

Align-to-Scale: Mode Switching Technique for Unimanual 3D Object Manipulation with Gaze-Hand-Object Alignment in Extended Reality

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

0+阅读 · 52分钟前

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

10+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

15+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

16+阅读 · 7月18日

相关VIP内容

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

14+阅读 · 4月29日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

22+阅读 · 2025年5月30日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

专知会员服务

50+阅读 · 2023年4月28日

加州大学博士论文《多模态传感器系统的稳健可解释预测》

加州大学博士论文《多模态传感器系统的稳健可解释预测》

专知会员服务

64+阅读 · 2023年3月31日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

【多模态智能：表示学习、信息融合和应用】Multimodal Intelligence: Representation Learning, Information Fusion, and Applications，芝加哥大学计算机科学系博士zichao Yang、华盛顿大学西雅图分校副教授xiaodong He等

【多模态智能：表示学习、信息融合和应用】Multimodal Intelligence: Representation Learning, Information Fusion, and Applications，芝加哥大学计算机科学系博士zichao Yang、华盛顿大学西雅图分校副教授xiaodong He等

专知会员服务

118+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

相关资讯

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

专知

16+阅读 · 2022年5月3日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【数字孪生】数字孪生是工业互联网关键技术和重要场景

【数字孪生】数字孪生是工业互联网关键技术和重要场景

产业智能官

39+阅读 · 2019年4月9日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

Facebook Oculus实验室实习生：手势估计最新综述

Facebook Oculus实验室实习生：手势估计最新综述

专知

10+阅读 · 2019年3月12日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

2017-最全手势识别/跟踪相关资源大列表分享（论文、数据集、比赛等）

2017-最全手势识别/跟踪相关资源大列表分享（论文、数据集、比赛等）

深度学习与NLP

64+阅读 · 2017年10月29日

相关论文

TouchAI: Exploring human-AI perceptual alignment in touch through language model representations

Arxiv

0+阅读 · 4月28日

A Gesture-Based Visual Learning Model for Acoustophoretic Interactions using a Swarm of AcoustoBots

Arxiv

0+阅读 · 4月21日

A wearable haptic device for edge and surface simulation

Arxiv

0+阅读 · 4月1日

HandX: Scaling Bimanual Motion and Interaction Generation

Arxiv

0+阅读 · 3月30日

SHOW3D: Capturing Scenes of 3D Hands and Objects in the Wild

Arxiv

0+阅读 · 3月30日

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Arxiv

0+阅读 · 3月24日

OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation

Arxiv

0+阅读 · 3月23日

Glove2Hand: Synthesizing Natural Hand-Object Interaction from Multi-Modal Sensing Gloves

Arxiv

0+阅读 · 3月21日

OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation

Arxiv

0+阅读 · 3月19日

Align-to-Scale: Mode Switching Technique for Unimanual 3D Object Manipulation with Gaze-Hand-Object Alignment in Extended Reality

Arxiv

0+阅读 · 3月19日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

5+阅读 · 2017年12月31日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

基于RGB-D数据的个性化手势交互技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员