Planning from Observation and Interaction - 专知论文

会员服务 ·

0

交互 · 逆向强化学习 · 在线 · 算法 · 强化学习 ·

Planning from Observation and Interaction

翻译：基于观察与交互的规划

Tyler Han,Siyang Shen,Rohan Baijal,Harine Ravichandiran,Bat Nemekhbold,Kevin Huang,Sanghun Jung,Byron Boots

Observational learning requires an agent to learn to perform a task by referencing only observations of the performed task. This work investigates the equivalent setting in real-world robot learning where access to hand-designed rewards and demonstrator actions are not assumed. To address this data-constrained setting, this work presents a planning-based Inverse Reinforcement Learning (IRL) algorithm for world modeling from observation and interaction alone. Experiments conducted entirely in the real-world demonstrate that this paradigm is effective for learning image-based manipulation tasks from scratch in under an hour, without assuming prior knowledge, pre-training, or data of any kind beyond task observations. Moreover, this work demonstrates that the learned world model representation is capable of online transfer learning in the real-world from scratch. In comparison to existing approaches, including IRL, RL, and Behavior Cloning (BC), which have more restrictive assumptions, the proposed approach demonstrates significantly greater sample efficiency and success rates, enabling a practical path forward for online world modeling and planning from observation and interaction. Videos and more at: https://uwrobotlearning.github.io/mpail2/.

翻译：观察学习要求智能体仅通过参考已执行任务的观察来学习执行该任务。本研究探讨了现实世界机器人学习中的等效场景，其中不假设存在手工设计的奖励或演示者动作。为应对这种数据受限的场景，本研究提出了一种基于规划的逆向强化学习算法，该算法仅通过观察与交互进行世界建模。完全在现实世界中进行的实验表明，该范式能够在一小时内从零开始学习基于图像的操控任务，且无需假设任何先验知识、预训练或除任务观察外的任何数据。此外，本研究证明所学习的世界模型表征能够在现实世界中实现从零开始的在线迁移学习。与包括逆向强化学习、强化学习和行为克隆在内的现有方法相比——这些方法具有更严格的假设——所提出的方法展现出显著更高的样本效率和成功率，为基于观察与交互的在线世界建模与规划提供了一条可行的技术路径。视频及更多内容请访问：https://uwrobotlearning.github.io/mpail2/。

0

相关内容

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

专知会员服务

26+阅读 · 2025年11月21日

空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf

空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf

专知会员服务

58+阅读 · 2024年10月23日

【牛津大学博士论文】深度具身智能体的空间推理与规划

【牛津大学博士论文】深度具身智能体的空间推理与规划

专知会员服务

45+阅读 · 2024年10月2日

【斯坦福博士论文】生成模型的视觉与行为

【斯坦福博士论文】生成模型的视觉与行为

专知会员服务

33+阅读 · 2024年7月11日

【牛津博士论文】使用学习到的无知感知模型进行规划，190页pdf

【牛津博士论文】使用学习到的无知感知模型进行规划，190页pdf

专知会员服务

28+阅读 · 2024年5月19日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

模仿学习: 进展，分类和机会

专知会员服务

48+阅读 · 2021年7月2日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

11+阅读 · 2022年4月10日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

如何构建行业知识图谱（以医疗行业为例）

如何构建行业知识图谱（以医疗行业为例）

专知

31+阅读 · 2019年11月7日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于低维连续表示的启发式智能规划技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月18日

Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

Arxiv

0+阅读 · 3月16日

Bilevel Planning with Learned Symbolic Abstractions from Interaction Data

Arxiv

0+阅读 · 3月9日

Model Predictive Adversarial Imitation Learning for Planning from Observation

Arxiv

0+阅读 · 3月2日

Human-to-Robot Interaction: Learning from Video Demonstration for Robot Imitation

Arxiv

0+阅读 · 2月22日

Cocoa: Co-Planning and Co-Execution with AI Agents

Arxiv

0+阅读 · 2月18日

From Legible to Inscrutable Trajectories: (Il)legible Motion Planning Accounting for Multiple Observers

Arxiv

0+阅读 · 2月9日

Aligning Microscopic Vehicle and Macroscopic Traffic Statistics: Reconstructing Driving Behavior from Partial Data

Arxiv

0+阅读 · 2月9日

Object-Oriented Transition Modeling with Inductive Logic Programming

Arxiv

0+阅读 · 2月7日

Aligning Microscopic Vehicle and Macroscopic Traffic Statistics: Reconstructing Driving Behavior from Partial Data

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

逆向强化学习

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

2+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

1+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

1+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

13+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

6+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

10+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

7+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

6+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

专知会员服务

26+阅读 · 2025年11月21日

空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf

空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf

专知会员服务

58+阅读 · 2024年10月23日

【牛津大学博士论文】深度具身智能体的空间推理与规划

【牛津大学博士论文】深度具身智能体的空间推理与规划

专知会员服务

45+阅读 · 2024年10月2日

【斯坦福博士论文】生成模型的视觉与行为

【斯坦福博士论文】生成模型的视觉与行为

专知会员服务

33+阅读 · 2024年7月11日

【牛津博士论文】使用学习到的无知感知模型进行规划，190页pdf

【牛津博士论文】使用学习到的无知感知模型进行规划，190页pdf

专知会员服务

28+阅读 · 2024年5月19日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

模仿学习: 进展，分类和机会

专知会员服务

48+阅读 · 2021年7月2日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

11+阅读 · 2022年4月10日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

如何构建行业知识图谱（以医疗行业为例）

如何构建行业知识图谱（以医疗行业为例）

专知

31+阅读 · 2019年11月7日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月18日

Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

Arxiv

0+阅读 · 3月16日

Bilevel Planning with Learned Symbolic Abstractions from Interaction Data

Arxiv

0+阅读 · 3月9日

Model Predictive Adversarial Imitation Learning for Planning from Observation

Arxiv

0+阅读 · 3月2日

Human-to-Robot Interaction: Learning from Video Demonstration for Robot Imitation

Arxiv

0+阅读 · 2月22日

Cocoa: Co-Planning and Co-Execution with AI Agents

Arxiv

0+阅读 · 2月18日

From Legible to Inscrutable Trajectories: (Il)legible Motion Planning Accounting for Multiple Observers

Arxiv

0+阅读 · 2月9日

Aligning Microscopic Vehicle and Macroscopic Traffic Statistics: Reconstructing Driving Behavior from Partial Data

Arxiv

0+阅读 · 2月9日

Object-Oriented Transition Modeling with Inductive Logic Programming

Arxiv

0+阅读 · 2月7日

Aligning Microscopic Vehicle and Macroscopic Traffic Statistics: Reconstructing Driving Behavior from Partial Data

Arxiv

0+阅读 · 1月29日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于低维连续表示的启发式智能规划技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员