Shallow-π：基于流的视觉-语言-动作模型的知识蒸馏 (Shallow-π: Knowledge Distillation for Flow-based VLAs) - 专知论文

会员服务 ·

0

知识 · 蒸馏 · 知识蒸馏 · 令牌 · 系统 ·

Shallow-π: Knowledge Distillation for Flow-based VLAs

翻译：Shallow-π：基于流的视觉-语言-动作模型的知识蒸馏

Boseong Jeon,Yunho Choi,Taehan Kim

The growing demand for real-time robotic deployment necessitates fast and on-device inference for vision-language-action (VLA) models. Within the VLA literature, efficiency has been extensively studied at the token level, such as visual token pruning. In contrast, systematic transformer layer reduction has received limited attention and, to the best of our knowledge, has not been explored for flow-based VLA models under knowledge distillation. In this work, we propose Shallow-pi, a principled knowledge distillation framework that aggressively reduces the transformer depth of both the VLM backbone and the flow-based action head, compressing the model from 18 to 6 layers. Shallow-pi achieves over two times faster inference with less than one percent absolute drop in success rate on standard manipulation benchmarks, establishing state-of-the-art performance among reduced VLA models. Crucially, we validate our approach through industrial-scale real-world experiments on Jetson Orin and Jetson Thor across multiple robot platforms, including humanoid systems, in complex and dynamic manipulation scenarios.

翻译：对机器人实时部署日益增长的需求，要求视觉-语言-动作（VLA）模型具备快速且可在设备上运行的推理能力。在VLA研究领域，效率问题已在令牌层面（如视觉令牌剪枝）得到广泛研究。相比之下，系统的Transformer层数缩减受到的关注有限，并且据我们所知，尚未在知识蒸馏框架下针对基于流的VLA模型进行探索。本研究提出Shallow-π，一个原则性的知识蒸馏框架，该框架大幅削减了VLM主干网络和基于流的动作头中的Transformer深度，将模型从18层压缩至6层。Shallow-π在标准操作基准测试中实现了超过两倍的推理加速，且成功率绝对下降幅度小于百分之一，在精简版VLA模型中确立了最先进的性能。至关重要的是，我们在Jetson Orin和Jetson Thor平台上，通过跨多个机器人平台（包括人形机器人系统）的工业级真实世界实验，在复杂动态的操作场景中验证了我们的方法。

0

相关内容

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

专知会员服务

17+阅读 · 2025年12月17日

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

24+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

专知会员服务

21+阅读 · 2025年7月3日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

基于大语言模型的时序知识图谱推理模型蒸馏方法

基于大语言模型的时序知识图谱推理模型蒸馏方法

专知会员服务

36+阅读 · 2025年1月10日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

泡泡机器人SLAM

13+阅读 · 2019年6月13日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【泡泡一分钟】从三维流动中学习单目视觉里程计及三维稠密建图

【泡泡一分钟】从三维流动中学习单目视觉里程计及三维稠密建图

泡泡机器人SLAM

12+阅读 · 2019年2月12日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

Arxiv

0+阅读 · 2月15日

FlowHOI: Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation

Arxiv

0+阅读 · 2月13日

CRAFT: Adapting VLA Models to Contact-rich Manipulation via Force-aware Curriculum Fine-tuning

Arxiv

0+阅读 · 2月13日

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

Arxiv

0+阅读 · 2月4日

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

Arxiv

0+阅读 · 2月3日

StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating

Arxiv

0+阅读 · 2月1日

TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月30日

$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

Arxiv

0+阅读 · 1月29日

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

Arxiv

0+阅读 · 1月27日

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

相关VIP内容

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

专知会员服务

17+阅读 · 2025年12月17日

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

24+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

专知会员服务

21+阅读 · 2025年7月3日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

基于大语言模型的时序知识图谱推理模型蒸馏方法

基于大语言模型的时序知识图谱推理模型蒸馏方法

专知会员服务

36+阅读 · 2025年1月10日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

泡泡机器人SLAM

13+阅读 · 2019年6月13日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【泡泡一分钟】从三维流动中学习单目视觉里程计及三维稠密建图

【泡泡一分钟】从三维流动中学习单目视觉里程计及三维稠密建图

泡泡机器人SLAM

12+阅读 · 2019年2月12日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

Arxiv

0+阅读 · 2月15日

FlowHOI: Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation

Arxiv

0+阅读 · 2月13日

CRAFT: Adapting VLA Models to Contact-rich Manipulation via Force-aware Curriculum Fine-tuning

Arxiv

0+阅读 · 2月13日

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

Arxiv

0+阅读 · 2月4日

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

Arxiv

0+阅读 · 2月3日

StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating

Arxiv

0+阅读 · 2月1日

TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月30日

$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

Arxiv

0+阅读 · 1月29日

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

Arxiv

0+阅读 · 1月27日

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

Arxiv

0+阅读 · 1月16日

相关基金

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员