Long-horizon precision manipulation in laboratory automation, such as pipette tip attachment and liquid transfer, requires policies that respect strict procedural logic while operating in continuous, high-dimensional state spaces. However, existing approaches struggle with reward sparsity, multi-stage structural constraints, and noisy or imperfect demonstrations, leading to inefficient exploration and unstable convergence. We propose a Keyframe-Guided Reward Generation Framework that automatically extracts kinematics-aware keyframes from demonstrations, generates stage-wise targets via a diffusion-based predictor in latent space, and constructs a geometric progress-based reward to guide online reinforcement learning. The framework integrates multi-view visual encoding, latent similarity-based progress tracking, and human-in-the-loop reinforcement fine-tuning on a Vision-Language-Action backbone to align policy optimization with the intrinsic stepwise logic of biological protocols. Across four real-world laboratory tasks, including high-precision pipette attachment and dynamic liquid transfer, our method achieves an average success rate of 82% after 40--60 minutes of online fine-tuning. Compared with HG-DAgger (42%) and Hil-ConRFT (47%), our approach demonstrates the effectiveness of structured keyframe-guided rewards in overcoming exploration bottlenecks and providing a scalable solution for high-precision, long-horizon robotic laboratory automation.


翻译:实验室自动化中的长时程精密操作(如移液器吸头安装和液体转移)要求策略在连续高维状态空间中运行时遵循严格的程序逻辑。然而,现有方法受限于奖励稀疏性、多阶段结构约束以及噪声或非完美示范数据,导致探索效率低下和收敛不稳定。我们提出了一种关键帧引导的奖励生成框架,该框架自动从示范数据中提取运动感知关键帧,通过潜在空间中基于扩散的预测器生成分阶段目标,并构建基于几何进度的奖励以指导在线强化学习。该框架集成了多视角视觉编码、基于潜在相似度的进度跟踪,以及在视觉-语言-动作骨干网络上进行人机协同强化微调,从而使策略优化与生物实验协议固有的逐步逻辑对齐。在四项真实世界实验室任务(包括高精度移液器安装和动态液体转移)中,我们的方法经过40-60分钟在线微调后平均成功率可达82%。与HG-DAgger(42%)和Hil-ConRFT(47%)相比,本方法证明了结构化关键帧引导奖励在克服探索瓶颈方面的有效性,并为高精度、长时程机器人实验室自动化提供了可扩展的解决方案。

0
下载
关闭预览

相关内容

深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
《使用强化学习的无人作战飞行器机队协同规划》12页论文
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
19+阅读 · 2020年9月1日
Forge:如何管理你的机器学习实验
专知
11+阅读 · 2018年12月1日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月12日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
5+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
12+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
2+阅读 · 4月12日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员