机器人学习领域长期以来的愿景是开发出能够在非结构化真实环境中进行稳健交互的通用智能体 (generalist agents)。尽管新兴的大规模模仿学习范式已赋予机器人广泛的基础能力,但这些系统在实际部署时往往表现出脆性。一个关键瓶颈在于对静态、预采集演示数据集的过度依赖,因为此类数据通常存在次优性 (suboptimal)、覆盖范围狭窄以及部署环境处于分布外 (out of distribution) 等问题。 本论文提出,若要实现更高的可靠性,必须超越静态演示数据集,将在线经验 (online experience)——即智能体与世界的直接交互——有效转化为自我提升与自适应的有信息信号。为了实现这一愿景,我们提出了一系列方法,旨在从在线经验中提取关键信号以增强策略的稳健性。 * 针对数据质量问题: 我们引入了一种利用在线策略展开 (online policy rollouts) 来实证评估演示质量的方法,从而能够过滤次优数据并筛选出高可靠性的训练数据。 * 针对覆盖范围不足: 我们提出了一种探索策略,通过引入源自当前策略与专家行为之间差异 (divergence) 的噪声,提升了强化学习的样本效率。 * 针对停滞 (idling) 故障模式: 我们开发了一个自我提升框架,当机器人陷入困境时通过施加扰动使其脱离,并利用由此产生的交互数据进行基于偏好的微调 (preference-based fine-tuning)。 * 针对部署时的实时适配: 我们探讨了智能体必须在无人工干预的情况下即时适应新场景的挑战。我们正式定义了单次生命周期部署 (single-life deployment) 设定,并引入了一种利用中间奖励塑形 (intermediate shaped rewards) 来平衡任务探索与恢复的方法。 * 针对快速自适应: 我们提出了一种利用学习到的价值估计 (value estimates) 在每个时间步对预训练行为进行调制的方法。 * 针对语义歧义: 我们使智能体能够利用视觉语言模型 (VLM) 对交互历史进行推理,从而从过往经验中推断出符合语境的策略。

综上所述,这些算法贡献表明,构建稳健的通用机器人策略,其最佳途径是闭合静态演示与策略经验之间的环路。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【斯坦福博士论文】移动操作机器人的学习系统构建研究
专知会员服务
14+阅读 · 2025年11月14日
【斯坦福大学博士论文】个性化机器学习的理论进展
专知会员服务
25+阅读 · 2025年3月25日
【斯坦福博士论文】协作多机器人学习算法
专知会员服务
17+阅读 · 2025年1月6日
【UIUC博士论文】《从视频中进行机器人学习》
专知会员服务
25+阅读 · 2024年12月20日
【斯坦福博士论文】非平稳环境中的深度强化学习算法
专知会员服务
32+阅读 · 2024年12月9日
【CMU博士论文】构建自适应性强的通用机器人,248页pdf
专知会员服务
37+阅读 · 2024年6月10日
【斯坦福博士论文】智能机器人行为自适应学习,141页pdf
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员