Learning from human feedback is a popular approach to train robots to adapt to user preferences and improve safety. Existing approaches typically consider a single querying (interaction) format when seeking human feedback and do not leverage multiple modes of user interaction with a robot. We examine how to learn a penalty function associated with unsafe behaviors using multiple forms of human feedback, by optimizing both the query state and feedback format. Our proposed adaptive feedback selection is an iterative, two-phase approach which first selects critical states for querying, and then uses information gain to select a feedback format for querying across the sampled critical states. The feedback format selection also accounts for the cost and probability of receiving feedback in a certain format. Our experiments in simulation demonstrate the sample efficiency of our approach in learning to avoid undesirable behaviors. The results of our user study with a physical robot highlight the practicality and effectiveness of adaptive feedback selection in seeking informative, user-aligned feedback that accelerate learning. Experiment videos, code and appendices are found on our website: https://tinyurl.com/AFS-learning.


翻译:从人类反馈中学习是训练机器人适应用户偏好并提升安全性的常用方法。现有方法在寻求人类反馈时通常仅考虑单一查询(交互)形式,未能充分利用用户与机器人的多种交互模式。本文研究如何通过同时优化查询状态与反馈形式,利用多种人类反馈学习与不安全行为相关的惩罚函数。我们提出的自适应反馈选择是一种迭代式两阶段方法:首先选择需查询的关键状态,随后利用信息增益在采样的关键状态中选择查询所用的反馈形式。反馈形式的选择同时考虑了特定形式反馈的获取成本与概率。仿真实验表明,该方法在学习规避不良行为时具有优异的样本效率。通过实体机器人进行的用户研究结果凸显了自适应反馈选择在获取信息丰富、符合用户意图的反馈以加速学习方面的实用性与有效性。实验视频、代码及附录详见项目网站:https://tinyurl.com/AFS-learning。

0
下载
关闭预览

相关内容

基于人工反馈的强化学习综述
专知会员服务
65+阅读 · 2023年12月25日
Berkeley博士论文《反馈系统中的可信机器学习》203页pdf
专知会员服务
40+阅读 · 2022年3月25日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
0+阅读 · 1月29日
VIP会员
相关VIP内容
相关资讯
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员