DECO: Decoupled Multimodal Diffusion Transformer for Bimanual Dexterous Manipulation with a Plugin Tactile Adapter - 专知论文

会员服务 ·

0

操作 · 多模 · 模态 · 适配 · 解耦 ·

DECO: Decoupled Multimodal Diffusion Transformer for Bimanual Dexterous Manipulation with a Plugin Tactile Adapter

翻译：DECO：用于双手灵巧操作的解耦多模态扩散Transformer及插件式触觉适配器

Xukun Li,Yu Sun,Lei Zhang,Bosheng Huang,Yibo Peng,Yuan Meng,Haojun Jiang,Shaoxuan Xie,Guacai Yao,Alois Knoll,Zhenshan Bing,Xinlong Wang,Zhenguo Sun

from arxiv, 17 pages, 8 figures

Overview of the Proposed DECO Framework.} DECO is a DiT-based policy that decouples multimodal conditioning. Image and action tokens interact via joint self attention, while proprioceptive states and optional conditions are injected through adaptive layer normalization. Tactile signals are injected via cross attention, while a lightweight LoRA-based adapter is used to efficiently fine-tune the pretrained policy. DECO is also accompanied by DECO-50, a bimanual dexterous manipulation dataset with tactile sensing, consisting of 4 scenarios and 28 sub-tasks, covering more than 50 hours of data, approximately 5 million frames, and 8,000 successful trajectories.

翻译：所提出的DECO框架概述。DECO是一种基于DiT的策略，其解耦了多模态条件。图像与动作令牌通过联合自注意力进行交互，而本体感知状态与可选条件则通过自适应层归一化注入。触觉信号通过交叉注意力注入，同时采用基于LoRA的轻量级适配器对预训练策略进行高效微调。DECO还配套发布了DECO-50——一个带触觉感知的双手灵巧操作数据集，包含4种场景和28项子任务，涵盖超过50小时的数据、约500万帧画面及8000条成功轨迹。

0

相关内容

【CVPR2026】DiverseDiT: 迈向扩散 Transformer 中的多样化表示学习

【CVPR2026】DiverseDiT: 迈向扩散 Transformer 中的多样化表示学习

专知会员服务

8+阅读 · 3月9日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

49+阅读 · 2025年12月28日

Sora的幕后功臣？详解大火的DiT：拥抱Transformer的扩散模型

Sora的幕后功臣？详解大火的DiT：拥抱Transformer的扩散模型

专知会员服务

47+阅读 · 2024年3月14日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

最新论文《战术网络的强化学习环境：基于多智能体的场景生成》德国弗劳恩霍夫研究所

最新论文《战术网络的强化学习环境：基于多智能体的场景生成》德国弗劳恩霍夫研究所

专知会员服务

148+阅读 · 2022年4月5日

华为等发布《视觉Transformer转换器》综述论文，21页pdf

华为等发布《视觉Transformer转换器》综述论文，21页pdf

专知会员服务

86+阅读 · 2020年12月25日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class DA

专知会员服务

28+阅读 · 2020年3月2日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

专知

59+阅读 · 2022年9月24日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

多用途载人航天器时间触发系统的容错和柔性调度方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly

Arxiv

0+阅读 · 3月10日

DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction

Arxiv

0+阅读 · 3月3日

DexRepNet++: Learning Dexterous Robotic Manipulation with Geometric and Spatial Hand-Object Representations

Arxiv

0+阅读 · 2月25日

TactEx: An Explainable Multimodal Robotic Interaction Framework for Human-Like Touch and Hardness Estimation

Arxiv

0+阅读 · 2月21日

Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

Arxiv

0+阅读 · 2月20日

AbracADDbra: Touch-Guided Object Addition by Decoupling Placement and Editing Subtasks

Arxiv

0+阅读 · 2月15日

DeCo: Task Decomposition and Skill Composition for Zero-Shot Generalization in Long-Horizon 3D Manipulation

Arxiv

0+阅读 · 2月15日

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

Arxiv

0+阅读 · 2月9日

DoRAN: Stabilizing Weight-Decomposed Low-Rank Adaptation via Noise Injection and Auxiliary Networks

Arxiv

0+阅读 · 2月6日

DyTopo: Dynamic Topology Routing for Multi-Agent Reasoning via Semantic Matching

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

【CVPR2026】DiverseDiT: 迈向扩散 Transformer 中的多样化表示学习

【CVPR2026】DiverseDiT: 迈向扩散 Transformer 中的多样化表示学习

专知会员服务

8+阅读 · 3月9日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

49+阅读 · 2025年12月28日

Sora的幕后功臣？详解大火的DiT：拥抱Transformer的扩散模型

Sora的幕后功臣？详解大火的DiT：拥抱Transformer的扩散模型

专知会员服务

47+阅读 · 2024年3月14日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

最新论文《战术网络的强化学习环境：基于多智能体的场景生成》德国弗劳恩霍夫研究所

最新论文《战术网络的强化学习环境：基于多智能体的场景生成》德国弗劳恩霍夫研究所

专知会员服务

148+阅读 · 2022年4月5日

华为等发布《视觉Transformer转换器》综述论文，21页pdf

华为等发布《视觉Transformer转换器》综述论文，21页pdf

专知会员服务

86+阅读 · 2020年12月25日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class DA

专知会员服务

28+阅读 · 2020年3月2日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

专知

59+阅读 · 2022年9月24日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

相关论文

ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly

Arxiv

0+阅读 · 3月10日

DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction

Arxiv

0+阅读 · 3月3日

DexRepNet++: Learning Dexterous Robotic Manipulation with Geometric and Spatial Hand-Object Representations

Arxiv

0+阅读 · 2月25日

TactEx: An Explainable Multimodal Robotic Interaction Framework for Human-Like Touch and Hardness Estimation

Arxiv

0+阅读 · 2月21日

Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

Arxiv

0+阅读 · 2月20日

AbracADDbra: Touch-Guided Object Addition by Decoupling Placement and Editing Subtasks

Arxiv

0+阅读 · 2月15日

DeCo: Task Decomposition and Skill Composition for Zero-Shot Generalization in Long-Horizon 3D Manipulation

Arxiv

0+阅读 · 2月15日

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

Arxiv

0+阅读 · 2月9日

DoRAN: Stabilizing Weight-Decomposed Low-Rank Adaptation via Noise Injection and Auxiliary Networks

Arxiv

0+阅读 · 2月6日

DyTopo: Dynamic Topology Routing for Multi-Agent Reasoning via Semantic Matching

Arxiv

0+阅读 · 2月5日

相关基金

多用途载人航天器时间触发系统的容错和柔性调度方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员