仿真到真实图像转换实现基于固定摄像头数据集的视角鲁棒策略 (Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets) - 专知论文

会员服务 ·

0

鲁棒 · 操作 · 演示 · 损失 · 数据集 ·

Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets

翻译：仿真到真实图像转换实现基于固定摄像头数据集的视角鲁棒策略

Jeremiah Coholich,Justin Wit,Robert Azarcon,Zsolt Kira

Vision-based policies for robot manipulation have achieved significant recent success, but are still brittle to distribution shifts such as camera viewpoint variations. Robot demonstration data is scarce and often lacks appropriate variation in camera viewpoints. Simulation offers a way to collect robot demonstrations at scale with comprehensive coverage of different viewpoints, but presents a visual sim2real challenge. To bridge this gap, we propose MANGO -- an unpaired image translation method with a novel segmentation-conditioned InfoNCE loss, a highly-regularized discriminator design, and a modified PatchNCE loss. We find that these elements are crucial for maintaining viewpoint consistency during sim2real translation. When training MANGO, we only require a small amount of fixed-camera data from the real world, but show that our method can generate diverse unseen viewpoints by translating simulated observations. In this setting, MANGO outperforms all other image translation methods we tested. In certain real-world tabletop manipulation tasks, MANGO augmentation increases shifted-view success rates by over 40 percentage points compared to policies trained without augmentation.

翻译：基于视觉的机器人操作策略近年来取得了显著成功，但仍对诸如摄像头视角变化等分布偏移较为敏感。机器人演示数据稀缺，且通常缺乏摄像头视角的适当变化。仿真为大规模收集机器人演示数据提供了途径，能够全面覆盖不同视角，但带来了视觉仿真到真实的挑战。为弥合这一差距，我们提出MANGO——一种非配对图像转换方法，其具备新颖的分割条件InfoNCE损失、高度正则化的判别器设计以及改进的PatchNCE损失。我们发现这些要素对于在仿真到真实转换过程中保持视角一致性至关重要。训练MANGO时，我们仅需少量来自真实世界的固定摄像头数据，但实验表明我们的方法能够通过转换仿真观测生成多样化的未见视角。在此设定下，MANGO优于我们测试的所有其他图像转换方法。在特定真实世界桌面操作任务中，与未经增强训练的策略相比，MANGO数据增强可将偏移视角下的成功率提升超过40个百分点。

0

相关内容

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

SAM2 用于图像和视频分割：全面综述

SAM2 用于图像和视频分割：全面综述

专知会员服务

17+阅读 · 2025年3月22日

迁移学习在计算机视觉问题中的应用：当前进展、局限性与机会综述

迁移学习在计算机视觉问题中的应用：当前进展、局限性与机会综述

专知会员服务

16+阅读 · 2024年9月13日

【CMU博士论文】理解、正式表征和鲁棒处理现实世界的分布转移，437页pdf

【CMU博士论文】理解、正式表征和鲁棒处理现实世界的分布转移，437页pdf

专知会员服务

24+阅读 · 2024年7月4日

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

专知会员服务

59+阅读 · 2023年7月10日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

《将准确的人物识别扩展到新的高度和范围：BRIAR 数据集》美国橡树岭国家实验室

《将准确的人物识别扩展到新的高度和范围：BRIAR 数据集》美国橡树岭国家实验室

专知会员服务

24+阅读 · 2023年2月4日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【目标跟踪 | 2019最新综述】视觉跟踪器的回顾及其在移动机器人中的应用分析，附25页PDF，174篇参考文献，A Review of Visual Trackers and Analysis of its Application to Mobile Robot

【目标跟踪 | 2019最新综述】视觉跟踪器的回顾及其在移动机器人中的应用分析，附25页PDF，174篇参考文献，A Review of Visual Trackers and Analysis of its Application to Mobile Robot

专知会员服务

26+阅读 · 2019年11月15日

【用十亿级半监督学习实现最先进图像与视频分类】《Billion-scale semi-supervised learning for state-of-the-art image and video classification | Facebook》

【用十亿级半监督学习实现最先进图像与视频分类】《Billion-scale semi-supervised learning for state-of-the-art image and video classification | Facebook》

专知会员服务

16+阅读 · 2019年10月21日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

深度学习

15+阅读 · 2018年12月19日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

泡泡机器人SLAM

24+阅读 · 2018年9月18日

【迁移学习】迁移学习在图像分类中的简单应用策略

【迁移学习】迁移学习在图像分类中的简单应用策略

产业智能官

15+阅读 · 2018年1月5日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂环境下面向激光扫描点云的三维目标定位方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

Arxiv

0+阅读 · 2月18日

FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency

Arxiv

0+阅读 · 2月18日

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

Arxiv

0+阅读 · 2月14日

Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets

Arxiv

0+阅读 · 2月10日

Improving Robustness of Vision-Language-Action Models by Restoring Corrupted Visual Inputs

Arxiv

0+阅读 · 2月1日

End-to-end example-based sim-to-real RL policy transfer based on neural stylisation with application to robotic cutting

Arxiv

0+阅读 · 1月28日

Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月27日

AnyTask: an Automated Task and Data Generation Framework for Advancing Sim-to-Real Policy Learning

Arxiv

0+阅读 · 1月20日

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

Arxiv

0+阅读 · 1月16日

Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相关VIP内容

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

SAM2 用于图像和视频分割：全面综述

SAM2 用于图像和视频分割：全面综述

专知会员服务

17+阅读 · 2025年3月22日

迁移学习在计算机视觉问题中的应用：当前进展、局限性与机会综述

迁移学习在计算机视觉问题中的应用：当前进展、局限性与机会综述

专知会员服务

16+阅读 · 2024年9月13日

【CMU博士论文】理解、正式表征和鲁棒处理现实世界的分布转移，437页pdf

【CMU博士论文】理解、正式表征和鲁棒处理现实世界的分布转移，437页pdf

专知会员服务

24+阅读 · 2024年7月4日

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

专知会员服务

59+阅读 · 2023年7月10日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

《将准确的人物识别扩展到新的高度和范围：BRIAR 数据集》美国橡树岭国家实验室

《将准确的人物识别扩展到新的高度和范围：BRIAR 数据集》美国橡树岭国家实验室

专知会员服务

24+阅读 · 2023年2月4日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【目标跟踪 | 2019最新综述】视觉跟踪器的回顾及其在移动机器人中的应用分析，附25页PDF，174篇参考文献，A Review of Visual Trackers and Analysis of its Application to Mobile Robot

【目标跟踪 | 2019最新综述】视觉跟踪器的回顾及其在移动机器人中的应用分析，附25页PDF，174篇参考文献，A Review of Visual Trackers and Analysis of its Application to Mobile Robot

专知会员服务

26+阅读 · 2019年11月15日

【用十亿级半监督学习实现最先进图像与视频分类】《Billion-scale semi-supervised learning for state-of-the-art image and video classification | Facebook》

【用十亿级半监督学习实现最先进图像与视频分类】《Billion-scale semi-supervised learning for state-of-the-art image and video classification | Facebook》

专知会员服务

16+阅读 · 2019年10月21日

热门VIP内容

开通专知VIP会员享更多权益服务

通用智能体评估的逻辑架构

《无人机与战争：被忽视的环境影响及无人机保护潜力》

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

相关资讯

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

深度学习

15+阅读 · 2018年12月19日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

泡泡机器人SLAM

24+阅读 · 2018年9月18日

【迁移学习】迁移学习在图像分类中的简单应用策略

【迁移学习】迁移学习在图像分类中的简单应用策略

产业智能官

15+阅读 · 2018年1月5日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

相关论文

SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

Arxiv

0+阅读 · 2月18日

FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency

Arxiv

0+阅读 · 2月18日

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

Arxiv

0+阅读 · 2月14日

Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets

Arxiv

0+阅读 · 2月10日

Improving Robustness of Vision-Language-Action Models by Restoring Corrupted Visual Inputs

Arxiv

0+阅读 · 2月1日

End-to-end example-based sim-to-real RL policy transfer based on neural stylisation with application to robotic cutting

Arxiv

0+阅读 · 1月28日

Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月27日

AnyTask: an Automated Task and Data Generation Framework for Advancing Sim-to-Real Policy Learning

Arxiv

0+阅读 · 1月20日

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

Arxiv

0+阅读 · 1月16日

Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets

Arxiv

0+阅读 · 1月14日

相关基金

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂环境下面向激光扫描点云的三维目标定位方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员