成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
0
赛车版「末日人机」上演速度与激情!索尼赛车游戏专业玩家被AI虐了
2020 年 8 月 27 日
新智元
新智元报道
来源:reddit
编辑:小匀
【新智元导读】
人机大战是目前最有看头的比赛了!最近,阿尔法狗斗战胜人类飞行员,不过还好,在赛车游戏中,我们人类玩家一直是很厉害的。但是近期,来自瑞士的研究人员利用深度强化学习(Deep Reinforcement Learning)玩了把赛车,估计又要让人类黯然失色了……
听说最近AI又战胜人类了?
美国DARPA「阿尔法狗斗」挑战赛决赛,由AI算法操控的虚拟飞机超过人类飞行员,以5:0
获胜
!
说到人机大战,还记得当年LOL英雄联盟出的
末日人机
吗?
与超级机器对决,有多少黄铜选手高呼:我太南了!
这些都还是小事儿,如果你遇见了一位更狠的「王者」——
深度强化学习(DRL)……
深度强化学习在很多决策领域当中都取得了比较不错的结果,
尤其是在游戏
,多个游戏已
经达到甚至是超过了
人类水平。
基于深度强化学习,
DeepMind研发的AlphaGo Zero
在不使用任何人类围棋数据的前提下,在围棋上完全完虐人类;
OpenAI研发的Dota Five
则在Dota游戏上达到了人类玩家的顶尖水平;
DeepMind研发的AlphaStar
在星际争霸游戏上同样击败了人类职业玩家。
这些都是深深「伤害」游戏玩家的深度强化学习实例。
赛车版「末日人机」
无论是在真实的道路上还是在模拟环境中,高速驾驶都是一项极具挑战性的任务,因为它要求驾驶员
快、准、狠
。同时,还要将车子的物理性能发挥到极致。
尽管DRL也在曾在模拟自动驾驶中得到了成功应用,
但在速度方面,目前没人能超过人类玩家。
直到最近,来自瑞士苏黎世大学和苏黎世联邦理工学院的研究人员训练的
深度强化学习(DRL) 智能体
打破了这一局面。
研究人员选择了2017年索尼的热门赛车游戏
gt Sport (GTS)
, 这款游戏深受玩家喜爱,车型又多,轨道又炫!
研究人员选择了下图这款:奥迪TT CUP。
Deep RL,速度超越人类玩家
一般来说,算法在赛车领域的研究工作可以分为
三类
:
(i) 依赖轨迹规划和控制的经典方法
(ii) 监督学习方法
(iii) 强化学习方法
与以往不同,研究人员利用DRL来训练一种深度感觉运动策略,
这种策略可以直接从观察结果映射到控制命令
。
首先,
研究人员
定义了一个用于制定赛车问题的奖励函数,相应地,一个神经网络策略将输入状态映射到动作。
当智能体学习使用不同的汽车高速在不同的轨道上自动驾驶时,通过最大的奖励函数来优化策略参数。
系统概述图
他们的目标是建立一个
神经网络控制器
,能够在不了解赛车动力学的情况下自动驾驶赛车,并让它在
「不撞到赛道墙」
的情况下尽可能快地跑完一圈。
专业玩家不服来战?
为让大家有一个清晰的认识,研究人员
邀请了Gran Turismo领域
的
专家TG
(匿名),与ta来了个在线对决。
显然,
DRL超越了TG
,率先进入了隧道。
(左图)来自70个国家的50,000多名人类玩家的个人最佳单圈时间(深蓝色直方图),以及内置的非玩家角色(黄线)。(为了简化,超过100秒的人圈时间被省略了)
(右图)10个最快的人类车手的一圈时间和我们的接近。
在实验中,
DRL击败了内置的npc
(非玩家控制角色),并
超过了50,000名
人类玩家个人
最佳
圈速。
评分表
ps:普遍认为,现代赛车游戏中内置的NPC是无法与人类公平竞争的。例如,与最快的人类车手相比,GTS中当前内置的NPC总共会损失11秒,在本次的参考设置中,NPC比所有人类车手的速度慢83%。
万一有人拿DRL开挂咋办?
研究人员认为,将要归因于智能体能够
自学轨迹
,这些轨迹在性质上与最优秀的人类选手所选择的轨迹相似,而且还能在转弯时保持稍高的速度。
t时刻的赛道进度cpt是通过将赛车的位置投射在赛道的中心线上来构建的
包括培训和评估,该团队用了不到73个小时就完成了DRL测试。尽管他们的研究仅限于没有其他赛车在赛道上进行的计时测试,但该团队计划使用更数据效率高的RL算法,如meta-RL,以迎接更多的「速度与激情」。
不过也有网友表示担忧,万一以后
有人「开挂」咋办
?
「这简直是疯了……另一方面,这可能会被用来作弊。」
「我从没想过在赛车游戏中会有人作弊,但现在看来可能性越来越大。」
的确有这样的危险,但游戏世界,最讲究的就是公平,玩家们的自律是最重要的!
研究已经在
arXiv
上发布。
参考链接:
https://arxiv.org/pdf/2008.07971.pdf
https://www.youtube.com/watch?v=Zeyv1bN9v4A
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
深度强化学习
关注
156
深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。
【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解
专知会员服务
81+阅读 · 2020年7月2日
高效医疗图像分析的统一表示
专知会员服务
36+阅读 · 2020年6月23日
YOLOv4 重磅来袭!俄罗斯小哥带来新一代快速高效检测器
专知会员服务
32+阅读 · 2020年4月24日
【强化学习】深度强化学习初学者指南
专知会员服务
184+阅读 · 2019年12月14日
【元学习 | 论文】CoRL19,元世界:多任务和元强化学习的基准和评估,伯克利分校,Google
专知会员服务
27+阅读 · 2019年11月21日
Atari联合创始人去世,为什么游戏对AI很重要?
新智元
3+阅读 · 2018年6月4日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
人工智能:英、中、美上演“三国演义”
专知
4+阅读 · 2018年1月27日
教程 | 深度强化学习入门:用TensorFlow构建你的第一个游戏AI
机器之心
6+阅读 · 2017年11月16日
Communication-Computation Trade-Off in Resource-Constrained Edge Inference
Arxiv
0+阅读 · 2020年10月14日
Optimization in a non-linear Lanchester-type model involving supply units
Arxiv
0+阅读 · 2020年10月10日
Go Wide, Then Narrow: Efficient Training of Deep Thin Networks
Arxiv
15+阅读 · 2020年7月1日
Quantizing deep convolutional networks for efficient inference: A whitepaper
Arxiv
6+阅读 · 2018年6月21日
Eigenoption Discovery through the Deep Successor Representation
Arxiv
3+阅读 · 2018年1月30日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
深度强化学习
强化学习
人机大战
索尼 (Sony)
DeepMind
AlphaGo Zero
相关VIP内容
【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解
专知会员服务
81+阅读 · 2020年7月2日
高效医疗图像分析的统一表示
专知会员服务
36+阅读 · 2020年6月23日
YOLOv4 重磅来袭!俄罗斯小哥带来新一代快速高效检测器
专知会员服务
32+阅读 · 2020年4月24日
【强化学习】深度强化学习初学者指南
专知会员服务
184+阅读 · 2019年12月14日
【元学习 | 论文】CoRL19,元世界:多任务和元强化学习的基准和评估,伯克利分校,Google
专知会员服务
27+阅读 · 2019年11月21日
热门VIP内容
开通专知VIP会员 享更多权益服务
《思考蜂群:基础、行为、拓扑与架构、认知、未来之路》400页书籍
【伯克利博士论文】协同语言智能体
新型军备竞赛:美军旨在争夺全球无人机主导地位
《乌克兰的无人机生态系统:经验教训》28页报告
相关资讯
Atari联合创始人去世,为什么游戏对AI很重要?
新智元
3+阅读 · 2018年6月4日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
人工智能:英、中、美上演“三国演义”
专知
4+阅读 · 2018年1月27日
教程 | 深度强化学习入门:用TensorFlow构建你的第一个游戏AI
机器之心
6+阅读 · 2017年11月16日
相关论文
Communication-Computation Trade-Off in Resource-Constrained Edge Inference
Arxiv
0+阅读 · 2020年10月14日
Optimization in a non-linear Lanchester-type model involving supply units
Arxiv
0+阅读 · 2020年10月10日
Go Wide, Then Narrow: Efficient Training of Deep Thin Networks
Arxiv
15+阅读 · 2020年7月1日
Quantizing deep convolutional networks for efficient inference: A whitepaper
Arxiv
6+阅读 · 2018年6月21日
Eigenoption Discovery through the Deep Successor Representation
Arxiv
3+阅读 · 2018年1月30日
大家都在搜
助贷模式
对抗特征转移
最新报告
MIT博士论文
无人系统
篮球制作
分布式事务
DREGON
ResNet50
从传统方法到深度学习—— bilateral filter 到 HDRNet的演进
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top