模仿学习论文 - 专知

会员服务 ·

模仿学习

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习（Imitation Learning）背后的原理是是通过隐含地给学习器关于这个世界的先验信息，比如执行、学习人类行为。在模仿学习任务中，智能体（agent）为了学习到策略从而尽可能像人类专家那样执行一种行为，它会寻找一种最佳的方式来使用由该专家示范的训练集（输入-输出对）。当智能体学习人类行为时，虽然我们也需要使用模仿学习，但实时的行为模拟成本会非常高。与之相反，吴恩达提出的学徒学习（Apprenticeship learning）执行的是存粹的贪婪/利用（exploitative）策略，并使用强化学习方法遍历所有的（状态和行为）轨迹（trajectories）来学习近优化策略。它需要极难的计略（maneuvers），而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态，所以可为自动驾驶这样的许多任务提供更可靠的通用框架。

Training and Evaluating Diffusion Policies with Long Context Lengths

Arxiv

0+阅读 · 6月15日

CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

Arxiv

0+阅读 · 6月15日

Reinforcement Learning-Guided Retrieval with Soft Fusion for Robust Multimodal Imitation Learning under Missing Modalities

Arxiv

0+阅读 · 6月13日

Addressing Ambiguity in Imitation Learning through Product of Experts based Negative Feedback

Arxiv

0+阅读 · 3月27日

WM-DAgger: Enabling Efficient Data Aggregation for Imitation Learning with World Models

Arxiv

0+阅读 · 4月13日

Multi-Camera View Scaling for Data-Efficient Robot Imitation Learning

Arxiv

0+阅读 · 4月1日

ViTac-Tracing: Visual-Tactile Imitation Learning of Deformable Object Tracing

Arxiv

0+阅读 · 3月19日

Active Stereo-Camera Outperforms Multi-Sensor Setup in ACT Imitation Learning for Humanoid Manipulation

Arxiv

0+阅读 · 3月30日

Active Imitation Learning for Thermal- and Kernel-Aware LFM Inference on 3D S-NUCA Many-Cores

Arxiv

0+阅读 · 4月13日

Optimistically Optimistic Exploration for Provably Efficient Infinite-Horizon Reinforcement and Imitation Learning

Arxiv

0+阅读 · 3月13日

Beyond Mimicry: Toward Lifelong Adaptability in Imitation Learning

Arxiv

0+阅读 · 2月23日

Agentic Critical Training

Arxiv

0+阅读 · 3月9日

CAPS: Context-Aware Priority Sampling for Enhanced Imitation Learning in Autonomous Driving

Arxiv

0+阅读 · 3月6日

Human-to-Robot Interaction: Learning from Video Demonstration for Robot Imitation

Arxiv

0+阅读 · 2月22日

MIMIC-D: Multi-modal Imitation for MultI-agent Coordination with Decentralized Diffusion Policies

Arxiv

0+阅读 · 2月19日

参考链接

微信扫码咨询专知VIP会员