Learning to See and Act: Task-Aware Virtual View Exploration for Robotic Manipulation - 专知论文

会员服务 ·

0

操作 · 机器人操作 · 机器人 · 鲁棒 · 遮挡 ·

Learning to See and Act: Task-Aware Virtual View Exploration for Robotic Manipulation

翻译：学习观察与行动：面向机器人操作的任务感知虚拟视角探索

Yongjie Bai,Zhouxia Wang,Yang Liu,Kaijun Luo,Yifan Wen,Mingtong Dai,Weixing Chen,Ziliang Chen,Lingbo Liu,Guanbin Li,Liang Lin

from arxiv, 24 pages, 15 figures, Project page: https://hcplab-sysu.github.io/TAVP, Code: https://github.com/HCPLab-SYSU/TAVP.git, Accepted at CVPR 2026

Recent vision-language-action (VLA) models for multi-task robot manipulation often rely on fixed camera setups and shared visual encoders, which limit their performance under occlusions and during cross-task transfer. To address these challenges, we propose Task-aware Virtual View Exploration (TVVE), a framework that learns to select task-relevant virtual camera viewpoints and dynamically re-render observations from a reconstructed scene representation using the selected viewpoints. To enable efficient view selection, we train an exploration policy in a pseudo-environment. In addition, we introduce a Task-aware Mixture-of-Experts (TaskMoE) visual encoder that routes visual features to task-specialized experts, mitigating interference in multi-task learning. To evaluate robustness under distribution shifts, we construct RLBench-OG, an out-of-distribution benchmark with visual perturbations and camera pose variations. Experiments on RLBench and RLBench-OG demonstrate that TVVE achieves higher success rates than strong baselines, while real-robot experiments further confirm its robustness to visual disturbances and unseen instructions. Code and visualizations are available at: https://hcplab-sysu.github.io/TAVP.

翻译：当前用于多任务机器人操作的视觉-语言-行动（VLA）模型通常依赖固定的相机设置和共享的视觉编码器，这限制了其在遮挡条件下和跨任务迁移时的性能。为应对这些挑战，我们提出了任务感知虚拟视角探索（TVVE）框架，该框架学习选择与任务相关的虚拟相机视点，并利用所选视点从重建的场景表示中动态重渲染观测。为实现高效的视点选择，我们在一个伪环境中训练探索策略。此外，我们引入了一种任务感知专家混合（TaskMoE）视觉编码器，它将视觉特征路由至任务专用的专家网络，从而缓解多任务学习中的干扰。为了评估分布偏移下的鲁棒性，我们构建了RLBench-OG，这是一个包含视觉扰动和相机位姿变化的分布外基准测试。在RLBench和RLBench-OG上的实验表明，TVVE比强基线方法取得了更高的成功率，而真实机器人实验进一步证实了其对视觉干扰和未见指令的鲁棒性。代码与可视化结果发布于：https://hcplab-sysu.github.io/TAVP。

0

相关内容

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

11+阅读 · 4月29日

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

专知会员服务

17+阅读 · 2025年12月17日

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

24+阅读 · 2025年10月22日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

多模态融合与视觉-语言模型：面向机器人视觉的综述

多模态融合与视觉-语言模型：面向机器人视觉的综述

专知会员服务

35+阅读 · 2025年4月5日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

118+阅读 · 2022年6月20日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知

19+阅读 · 2022年7月30日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

专知

33+阅读 · 2019年11月1日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【机器视觉】工业视觉新方向起底、人工智能检测设备实现手机外观缺陷全自动检测、康耐视：当深度学习遇见机器视觉

【机器视觉】工业视觉新方向起底、人工智能检测设备实现手机外观缺陷全自动检测、康耐视：当深度学习遇见机器视觉

产业智能官

25+阅读 · 2019年1月4日

深度学习与计算机视觉任务应用综述

深度学习与计算机视觉任务应用综述

深度学习与NLP

51+阅读 · 2018年12月18日

【紫冬分享】移动机器人视觉里程计综述

【紫冬分享】移动机器人视觉里程计综述

中国科学院自动化研究所

12+阅读 · 2018年10月31日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

面向智能机器人柔性装配系统自主控制的主动视觉感知技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

Towards Generalizable Robotic Manipulation in Dynamic Environments

Towards Generalizable Robotic Manipulation in Dynamic Environments

Arxiv

0+阅读 · 3月16日

OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation

Arxiv

0+阅读 · 3月2日

Metamorphic Testing of Vision-Language Action-Enabled Robots

Arxiv

0+阅读 · 2月26日

Selective Perception for Robot: Task-Aware Attention in Multimodal VLA

Arxiv

0+阅读 · 2月17日

Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation

Arxiv

0+阅读 · 2月12日

Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation

Arxiv

0+阅读 · 2月11日

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Arxiv

0+阅读 · 2月10日

Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization

Arxiv

0+阅读 · 2月10日

RoboPaint: From Human Demonstration to Any Robot and Any View

Arxiv

0+阅读 · 2月7日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

机器人操作

最新内容

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

0+阅读 · 今天15:20

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

1+阅读 · 今天15:17

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

3+阅读 · 今天13:05

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

2+阅读 · 今天13:00

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

0+阅读 · 今天12:47

【CVPR Oral 2026】LILA：从无标签视频中学习像素级时空一致表示

【CVPR Oral 2026】LILA：从无标签视频中学习像素级时空一致表示

专知会员服务

7+阅读 · 5月3日

【综述】基于大语言模型的对话用户模拟综述

【综述】基于大语言模型的对话用户模拟综述

专知会员服务

6+阅读 · 5月3日

《美战争部人工智能应用用例评估：人类专家与大型语言模型比较》

《美战争部人工智能应用用例评估：人类专家与大型语言模型比较》

专知会员服务

10+阅读 · 5月3日

《无人机与大规模齐射攻击：美国-以色列的经验教训》

《无人机与大规模齐射攻击：美国-以色列的经验教训》

专知会员服务

14+阅读 · 5月3日

《再入飞行器轨迹分析与性能工具的开发及其在SpaceX星舰™上的应用》227页

《再入飞行器轨迹分析与性能工具的开发及其在SpaceX星舰™上的应用》227页

专知会员服务

5+阅读 · 5月3日

《军事人工智能中的法律、伦理和技术困境》338页书籍

《军事人工智能中的法律、伦理和技术困境》338页书籍

专知会员服务

3+阅读 · 5月3日

首场人工智能战争：美军在伊朗对无人机、无人水面艇、无人潜航器、人工智能及商业航天技术的运用

首场人工智能战争：美军在伊朗对无人机、无人水面艇、无人潜航器、人工智能及商业航天技术的运用

专知会员服务

5+阅读 · 5月3日

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

专知会员服务

11+阅读 · 5月2日

【CVPR 2026】语义泡沫：统一空间与语义场景分解

【CVPR 2026】语义泡沫：统一空间与语义场景分解

专知会员服务

8+阅读 · 5月2日

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

9+阅读 · 5月2日

相关VIP内容

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

11+阅读 · 4月29日

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

专知会员服务

17+阅读 · 2025年12月17日

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

24+阅读 · 2025年10月22日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

多模态融合与视觉-语言模型：面向机器人视觉的综述

多模态融合与视觉-语言模型：面向机器人视觉的综述

专知会员服务

35+阅读 · 2025年4月5日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

118+阅读 · 2022年6月20日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【综述】机器人学习中的世界模型：全面综述

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

伊朗的导弹-无人机行动及其对美国威慑的影响

相关资讯

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知

19+阅读 · 2022年7月30日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

专知

33+阅读 · 2019年11月1日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【机器视觉】工业视觉新方向起底、人工智能检测设备实现手机外观缺陷全自动检测、康耐视：当深度学习遇见机器视觉

【机器视觉】工业视觉新方向起底、人工智能检测设备实现手机外观缺陷全自动检测、康耐视：当深度学习遇见机器视觉

产业智能官

25+阅读 · 2019年1月4日

深度学习与计算机视觉任务应用综述

深度学习与计算机视觉任务应用综述

深度学习与NLP

51+阅读 · 2018年12月18日

【紫冬分享】移动机器人视觉里程计综述

【紫冬分享】移动机器人视觉里程计综述

中国科学院自动化研究所

12+阅读 · 2018年10月31日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

Towards Generalizable Robotic Manipulation in Dynamic Environments

Towards Generalizable Robotic Manipulation in Dynamic Environments

Arxiv

0+阅读 · 3月16日

OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation

Arxiv

0+阅读 · 3月2日

Metamorphic Testing of Vision-Language Action-Enabled Robots

Arxiv

0+阅读 · 2月26日

Selective Perception for Robot: Task-Aware Attention in Multimodal VLA

Arxiv

0+阅读 · 2月17日

Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation

Arxiv

0+阅读 · 2月12日

Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation

Arxiv

0+阅读 · 2月11日

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Arxiv

0+阅读 · 2月10日

Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization

Arxiv

0+阅读 · 2月10日

RoboPaint: From Human Demonstration to Any Robot and Any View

Arxiv

0+阅读 · 2月7日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

相关基金

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

面向智能机器人柔性装配系统自主控制的主动视觉感知技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员