Safety is critical during human-robot interaction. But -- because people are inherently unpredictable -- it is often difficult for robots to plan safe behaviors. Instead of relying on our ability to anticipate humans, here we identify robot policies that are robust to unexpected human decisions. We achieve this by formulating human-robot interaction as a zero-sum game, where (in the worst case) the human's actions directly conflict with the robot's objective. Solving for the Nash Equilibrium of this game provides robot policies that maximize safety and performance across a wide range of human actions. Existing approaches attempt to find these optimal policies by leveraging Hamilton-Jacobi analysis (which is intractable) or linear-quadratic approximations (which are inexact). By contrast, in this work we propose a computationally efficient and theoretically justified method that converges towards the Nash Equilibrium policy. Our approach (which we call MCLQ) leverages linear-quadratic games to obtain an initial guess at safe robot behavior, and then iteratively refines that guess with a Monte Carlo search. Not only does MCLQ provide real-time safety adjustments, but it also enables the designer to tune how conservative the robot is -- preventing the system from focusing on unrealistic human behaviors. Our simulations and user study suggest that this approach advances safety in terms of both computation time and expected performance. See videos of our experiments here: https://youtu.be/KJuHeiWVuWY.


翻译:人机交互中的安全性至关重要。然而,由于人类行为本质上不可预测,机器人往往难以规划安全的行为。本文不依赖对人类行为的预测能力,而是识别出对人类意外决策具有鲁棒性的机器人策略。为此,我们将人机交互建模为零和博弈,其中(在最坏情况下)人类的行为直接与机器人的目标相冲突。求解该博弈的纳什均衡,可得到能够在一系列人类行为中最大化安全性与性能的机器人策略。现有方法尝试利用哈密顿-雅可比分析(计算复杂)或线性二次近似(精度不足)来寻求这些最优策略。相比之下,本文提出一种计算高效且具有理论依据的方法,可收敛至纳什均衡策略。我们的方法(称为MCLQ)利用线性二次博弈获得初始安全行为估计,再通过蒙特卡洛搜索迭代优化该估计。MCLQ不仅能提供实时安全性调整,还允许设计者调节机器人的保守程度,避免系统过度关注不切实际的人类行为。仿真实验与用户研究表明,该方法在计算时间与期望性能两方面均提升了安全性。实验视频详见:https://youtu.be/KJuHeiWVuWY。

0
下载
关闭预览

相关内容

《提升生成模型的安全性与保障》博士论文
专知会员服务
12+阅读 · 4月20日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
0+阅读 · 4月26日
VIP会员
相关主题
最新内容
重新思考无人机时代的生存能力
专知会员服务
4+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员