Deep Reinforcement learning (DRL) has achieved remarkable success in domains with well-defined reward structures, such as Atari games and locomotion. In contrast, dexterous manipulation lacks general-purpose reward formulations and typically depends on task-specific, handcrafted priors to guide hand-object interactions. We propose Contact Coverage-Guided Exploration (CCGE), a general exploration method designed for general-purpose dexterous manipulation tasks. CCGE represents contact state as the intersection between object surface points and predefined hand keypoints, encouraging dexterous hands to discover diverse and novel contact patterns, namely which fingers contact which object regions. It maintains a contact counter conditioned on discretized object states obtained via learned hash codes, capturing how frequently each finger interacts with different object regions. This counter is leveraged in two complementary ways: (1) to assign a count-based contact coverage reward that promotes exploration of novel contact patterns, and (2) an energy-based reaching reward that guides the agent toward under-explored contact regions. We evaluate CCGE on a diverse set of dexterous manipulation tasks, including cluttered object singulation, constrained object retrieval, in-hand reorientation, and bimanual manipulation. Experimental results show that CCGE substantially improves training efficiency and success rates over existing exploration methods, and that the contact patterns learned with CCGE transfer robustly to real-world robotic systems. Project page is https://contact-coverage-guided-exploration.github.io.


翻译:深度强化学习(DRL)在奖励结构明确的领域(如Atari游戏与运动控制)已取得显著成功。相比之下,灵巧操作任务缺乏通用的奖励函数设计,通常依赖针对特定任务手工设计的先验知识来引导手-物体交互。本文提出接触覆盖引导探索(CCGE),一种专为通用灵巧操作任务设计的探索方法。CCGE将接触状态表征为物体表面点与预定义手部关键点的交集,激励灵巧手发现多样新颖的接触模式(即哪些手指接触哪些物体区域)。该方法通过学习得到的哈希码对物体状态进行离散化,并维护基于此的条件化接触计数器,以记录每个手指与不同物体区域的交互频率。该计数器通过两种互补方式被利用:(1)基于计数的接触覆盖奖励,促进对新颖接触模式的探索;(2)基于能量的接近奖励,引导智能体朝向未充分探索的接触区域。我们在多种灵巧操作任务上评估CCGE,包括密集物体分离、受限物体抓取、手内重定向及双手操作。实验结果表明,相较于现有探索方法,CCGE显著提升了训练效率与成功率,且通过CCGE学习的接触模式能够稳健地迁移至真实机器人系统。项目页面见 https://contact-coverage-guided-exploration.github.io。

0
下载
关闭预览

相关内容

【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
《可解释深度强化学习综述》
专知会员服务
40+阅读 · 2025年2月12日
【ICML2024】深度强化学习中的随机潜在探索
专知会员服务
20+阅读 · 2024年7月19日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月8日
VIP会员
最新内容
人工智能在战场行动中的演进及伊朗案例
专知会员服务
2+阅读 · 今天13:08
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
2+阅读 · 今天12:58
【博士论文】面向城市环境的可解释计算机视觉
专知会员服务
0+阅读 · 今天12:57
大语言模型的自改进机制:技术综述与未来展望
专知会员服务
0+阅读 · 今天12:50
《第四代军事特种作战部队选拔与评估》
专知会员服务
1+阅读 · 今天6:23
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员