Recently, end-to-end robotic manipulation models have gained significant attention for their generalizability and scalability. However, they often suffer from limited robustness to camera viewpoint changes when training with a fixed camera. In this paper, we propose VistaBot, a novel framework that integrates feed-forward geometric models with video diffusion models to achieve view-robust closed-loop manipulation without requiring camera calibration at test time. Our approach consists of three key components: 4D geometry estimation, view synthesis latent extraction, and latent action learning. VistaBot is integrated into both action-chunking (ACT) and diffusion-based ($π_0$) policies and evaluated across simulation and real-world tasks. We further introduce the View Generalization Score (VGS) as a new metric for comprehensive evaluation of cross-view generalization. Results show that VistaBot improves VGS by 2.79$\times$ and 2.63$\times$ over ACT and $π_0$, respectively, while also achieving high-quality novel view synthesis. Our contributions include a geometry-aware synthesis model, a latent action planner, a new benchmark metric, and extensive validation across diverse environments. The code and models will be made publicly available.


翻译:近年来,端到端机器人操作模型因其泛化性和可扩展性受到广泛关注。然而,当使用固定摄像机进行训练时,这些模型通常对摄像机视角变化的鲁棒性较差。本文提出VistaBot——一种将前馈几何模型与视频扩散模型相结合的新型框架,无需测试阶段摄像机标定即可实现视角鲁棒的闭环操作。我们的方法包含三个关键组成部分:4D几何估计、视图合成潜变量提取和潜空间动作学习。VistaBot被集成到动作分块(ACT)和基于扩散的(π₀)策略中,并在仿真和真实世界任务中进行了评估。我们进一步引入视角泛化分数(VGS)作为跨视角泛化综合评估的新指标。结果表明,与ACT和π₀相比,VistaBot在VGS上分别提升了2.79倍和2.63倍,同时实现了高质量的新视角合成。我们的贡献包括:几何感知合成模型、潜空间动作规划器、新基准指标以及跨多种环境的广泛验证。代码和模型将公开发布。

0
下载
关闭预览

相关内容

【博士论文】面向开放式世界的鲁棒智能体
专知会员服务
25+阅读 · 2025年12月10日
机器人操作扩散模型综述
专知会员服务
21+阅读 · 2025年4月14日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
【斯坦福博士论文】大模型驱动的鲁棒机器学习,243页pdf
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
60+阅读 · 2022年9月7日
【机器视觉】机器视觉全面解析
产业智能官
12+阅读 · 2018年11月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月30日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员