Multi-Camera View Scaling for Data-Efficient Robot Imitation Learning - 专知论文

会员服务 ·

0

缩放 · 模仿学习 · 演示 · 多视角 · 多样性 ·

Multi-Camera View Scaling for Data-Efficient Robot Imitation Learning

翻译：面向数据高效机器人模仿学习的多视角缩放方法

Yichen Xie,Yixiao Wang,Shuqi Zhao,Cheng-En Wu,Masayoshi Tomizuka,Jianwen Xie,Hao-Shu Fang

The generalization ability of imitation learning policies for robotic manipulation is fundamentally constrained by the diversity of expert demonstrations, while collecting demonstrations across varied environments is costly and difficult in practice. In this paper, we propose a practical framework that exploits inherent scene diversity without additional human effort by scaling camera views during demonstration collection. Instead of acquiring more trajectories, multiple synchronized camera perspectives are used to generate pseudo-demonstrations from each expert trajectory, which enriches the training distribution and improves viewpoint invariance in visual representations. We analyze how different action spaces interact with view scaling and show that camera-space representations further enhance diversity. In addition, we introduce a multiview action aggregation method that allows single-view policies to benefit from multiple cameras during deployment. Extensive experiments in simulation and real-world manipulation tasks demonstrate significant gains in data efficiency and generalization compared to single-view baselines. Our results suggest that scaling camera views provides a practical and scalable solution for imitation learning, which requires minimal additional hardware setup and integrates seamlessly with existing imitation learning algorithms. The website of our project is https://yichen928.github.io/robot_multiview.

翻译：机器人操作中模仿学习策略的泛化能力本质上受限于专家演示的多样性，然而在实际中跨不同环境收集演示成本高昂且实施困难。本文提出一种无需额外人力即可利用场景内在多样性的实用框架——通过在演示采集过程中缩放相机视角。该方法无需获取更多轨迹，而是利用多个同步摄像机视角从每条专家轨迹生成伪演示，从而丰富训练分布并提升视觉表征中的视角不变性。我们分析了不同动作空间与视角缩放的交互机制，证明相机空间表征能进一步增强多样性。此外，我们引入了一种多视角动作聚合方法，使单视角策略在部署阶段也能从多个相机中获益。在仿真和真实世界操作任务中的大量实验表明，与单视角基线相比，该方法在数据效率和泛化能力方面取得了显著提升。研究结果表明，相机视角缩放为模仿学习提供了一种实用且可扩展的解决方案，该方案所需额外硬件配置极少，并能与现有模仿学习算法无缝集成。项目网站地址为：https://yichen928.github.io/robot_multiview

0

相关内容

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

22+阅读 · 1月18日

【CMU博士论文】迈向数据高效的多模态学习

【CMU博士论文】迈向数据高效的多模态学习

专知会员服务

25+阅读 · 1月17日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【CMU博士论文】观看、预测、行动：机器人学习遇上网络视频

【CMU博士论文】观看、预测、行动：机器人学习遇上网络视频

专知会员服务

15+阅读 · 2025年5月23日

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

专知会员服务

71+阅读 · 2022年10月9日

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

专知会员服务

31+阅读 · 2022年3月11日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

专知会员服务

93+阅读 · 2019年11月15日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Multi-modal video data-pipelines for machine learning with minimal human supervision

Arxiv

0+阅读 · 5月25日

From Seeing to Simulating: Generative High-Fidelity Simulation with Digital Cousins for Generalizable Robot Learning and Evaluation

Arxiv

0+阅读 · 4月17日

IGen: Scalable Data Generation for Robot Learning from Open-World Images

Arxiv

0+阅读 · 4月15日

WM-DAgger: Enabling Efficient Data Aggregation for Imitation Learning with World Models

Arxiv

0+阅读 · 4月13日

Towards Generalizable Robotic Data Flywheel: High-Dimensional Factorization and Composition

Arxiv

0+阅读 · 3月26日

VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents

Arxiv

0+阅读 · 3月26日

Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

Arxiv

0+阅读 · 3月21日

Data Analogies Enable Efficient Cross-Embodiment Transfer

Arxiv

0+阅读 · 3月20日

Grounding Robot Generalization in Training Data via Retrieval-Augmented VLMs

Arxiv

0+阅读 · 3月18日

Multimodal Prompting with Missing Modalities for Visual Recognition

Arxiv

11+阅读 · 2023年3月6日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

3+阅读 · 今天14:49

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

22+阅读 · 1月18日

【CMU博士论文】迈向数据高效的多模态学习

【CMU博士论文】迈向数据高效的多模态学习

专知会员服务

25+阅读 · 1月17日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【CMU博士论文】观看、预测、行动：机器人学习遇上网络视频

【CMU博士论文】观看、预测、行动：机器人学习遇上网络视频

专知会员服务

15+阅读 · 2025年5月23日

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

专知会员服务

71+阅读 · 2022年10月9日

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

专知会员服务

31+阅读 · 2022年3月11日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

专知会员服务

93+阅读 · 2019年11月15日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

相关论文

Multi-modal video data-pipelines for machine learning with minimal human supervision

Arxiv

0+阅读 · 5月25日

From Seeing to Simulating: Generative High-Fidelity Simulation with Digital Cousins for Generalizable Robot Learning and Evaluation

Arxiv

0+阅读 · 4月17日

IGen: Scalable Data Generation for Robot Learning from Open-World Images

Arxiv

0+阅读 · 4月15日

WM-DAgger: Enabling Efficient Data Aggregation for Imitation Learning with World Models

Arxiv

0+阅读 · 4月13日

Towards Generalizable Robotic Data Flywheel: High-Dimensional Factorization and Composition

Arxiv

0+阅读 · 3月26日

VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents

Arxiv

0+阅读 · 3月26日

Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

Arxiv

0+阅读 · 3月21日

Data Analogies Enable Efficient Cross-Embodiment Transfer

Arxiv

0+阅读 · 3月20日

Grounding Robot Generalization in Training Data via Retrieval-Augmented VLMs

Arxiv

0+阅读 · 3月18日

Multimodal Prompting with Missing Modalities for Visual Recognition

Arxiv

11+阅读 · 2023年3月6日

相关基金

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员