【斯坦福博士论文】利用在线交互经验提升机器人学习稳健性的算法研究

机器人学习领域长期以来的愿景是开发出能够在非结构化真实环境中进行稳健交互的通用智能体 (generalist agents)。尽管新兴的大规模模仿学习范式已赋予机器人广泛的基础能力，但这些系统在实际部署时往往表现出脆性。一个关键瓶颈在于对静态、预采集演示数据集的过度依赖，因为此类数据通常存在次优性 (suboptimal)、覆盖范围狭窄以及部署环境处于分布外 (out of distribution) 等问题。本论文提出，若要实现更高的可靠性，必须超越静态演示数据集，将在线经验 (online experience)——即智能体与世界的直接交互——有效转化为自我提升与自适应的有信息信号。为了实现这一愿景，我们提出了一系列方法，旨在从在线经验中提取关键信号以增强策略的稳健性。 * 针对数据质量问题： 我们引入了一种利用在线策略展开 (online policy rollouts) 来实证评估演示质量的方法，从而能够过滤次优数据并筛选出高可靠性的训练数据。 * 针对覆盖范围不足： 我们提出了一种探索策略，通过引入源自当前策略与专家行为之间差异 (divergence) 的噪声，提升了强化学习的样本效率。 * 针对停滞 (idling) 故障模式： 我们开发了一个自我提升框架，当机器人陷入困境时通过施加扰动使其脱离，并利用由此产生的交互数据进行基于偏好的微调 (preference-based fine-tuning)。 * 针对部署时的实时适配： 我们探讨了智能体必须在无人工干预的情况下即时适应新场景的挑战。我们正式定义了单次生命周期部署 (single-life deployment) 设定，并引入了一种利用中间奖励塑形 (intermediate shaped rewards) 来平衡任务探索与恢复的方法。 * 针对快速自适应： 我们提出了一种利用学习到的价值估计 (value estimates) 在每个时间步对预训练行为进行调制的方法。 * 针对语义歧义： 我们使智能体能够利用视觉语言模型 (VLM) 对交互历史进行推理，从而从过往经验中推断出符合语境的策略。

综上所述，这些算法贡献表明，构建稳健的通用机器人策略，其最佳途径是闭合静态演示与策略经验之间的环路。

成为VIP会员查看完整内容

相关内容

博士论文

关注 130

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【斯坦福博士论文】移动操作机器人的学习系统构建研究

专知会员服务

14+阅读 · 2025年11月14日

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

专知会员服务

14+阅读 · 2025年10月25日

【斯坦福大学博士论文】个性化机器学习的理论进展

专知会员服务

25+阅读 · 2025年3月25日

【斯坦福博士论文】协作多机器人学习算法

专知会员服务

17+阅读 · 2025年1月6日