【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用 - 专知VIP

会员服务 ·

1

CoRL · 最佳论文 · 机器人 · 多智能体学习 ·

2020 年 11 月 20 日

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

智能体与人类或机器人的无缝交互很困难，因为现实环境是动态变化的，并根据自智能体的行为更新策略，而自智能体必须预测这些变化以随机应变。受人类行为启发，我们认识到机器人不需要显式地为另一个智能体要进行的每一个低级动作建模；相反，我们可以通过高级表征来捕捉其他智能体的潜在策略。我们提出了一个基于强化学习的学习框架来学习一个智能体策略的潜在表示，其中自智能体识别其行为与另一个智能体的未来策略之间的关系。然后，自智能体利用这些潜在的动力来影响另一个智能体，有目的地引导他们走向共同适应的策略。在多个模拟领域和一个真实的空中曲棍球游戏中，本文的方法要优于其他方法，并学会了影响其他智能体。

成为VIP会员查看完整内容

28

相关内容

CoRL

CoRL的全程为Conference on Robot Learning（机器人学习大会），CoRL是一个新的以机器人学和机器学习为主题的年度国际会议。大会的组织者包括来自UC Berkrley、Google、Microsoft、CMU、MIT、ETH、Deepmind等知名院校和知名企业的研究者和从业者，同时CoRL大会的举办还得到了机器人国际机构“三巨头”之一的国际机器人研究基金会（IFRR）和机器学习领域最好的期刊之一JMLR（Journal of Machine Learning Research）的支持。

【伯克利博士论文】通过对齐表示和图像来跨域自适应，95页pdf

【伯克利博士论文】通过对齐表示和图像来跨域自适应，95页pdf

专知会员服务

44+阅读 · 2020年12月27日

【Cell 2020】神经网络中的持续学习

【Cell 2020】神经网络中的持续学习

专知会员服务

62+阅读 · 2020年11月7日

【DeepMind-NeurIPS 2020】元训练代理实现Bayes-optimal代理

【DeepMind-NeurIPS 2020】元训练代理实现Bayes-optimal代理

专知会员服务

12+阅读 · 2020年11月1日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

48+阅读 · 2020年10月26日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

196+阅读 · 2020年5月24日

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

专知会员服务

28+阅读 · 2020年1月11日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

专知会员服务

13+阅读 · 2019年10月3日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

【论文笔记】面向智能体（Agent）发起的社交电子商务推荐的知识感知图卷积网络

【论文笔记】面向智能体（Agent）发起的社交电子商务推荐的知识感知图卷积网络

专知

5+阅读 · 2019年12月23日

CVPR 2019 | 智能体张量融合，一种保持空间结构信息的轨迹预测

CVPR 2019 | 智能体张量融合，一种保持空间结构信息的轨迹预测

AI科技评论

4+阅读 · 2019年6月11日

CVPR 2019 | 智能体张量融合，一种保持空间结构信息的轨迹预测方法

CVPR 2019 | 智能体张量融合，一种保持空间结构信息的轨迹预测方法

机器之心

6+阅读 · 2019年6月2日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

AI前线

3+阅读 · 2019年1月3日

学习如何学习的算法：简述元学习研究方向现状

学习如何学习的算法：简述元学习研究方向现状

深度学习世界

6+阅读 · 2018年4月9日

深度 | 学习如何学习的算法：简述元学习研究方向现状

深度 | 学习如何学习的算法：简述元学习研究方向现状

机器之心

8+阅读 · 2018年4月5日

不对称多代理博弈中的博弈理论解读

不对称多代理博弈中的博弈理论解读

AI前线

14+阅读 · 2018年3月8日

【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D

【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D

GAN生成式对抗网络

5+阅读 · 2018年1月13日

Learn Dynamic-Aware State Embedding for Transfer Learning

Arxiv

0+阅读 · 2021年1月6日

A Survey of Deep RL and IL for Autonomous Driving Policy Learning

Arxiv

0+阅读 · 2021年1月6日

Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces

Arxiv

1+阅读 · 2021年1月6日

Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control

Arxiv

0+阅读 · 2021年1月6日

Latent Relation Language Models

Arxiv

21+阅读 · 2019年8月21日

KGAT: Knowledge Graph Attention Network for Recommendation

Arxiv

40+阅读 · 2019年5月20日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings

Arxiv

6+阅读 · 2018年6月7日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

Evaluating Layers of Representation in Neural Machine Translation on Part-of-Speech and Semantic Tagging Tasks

Arxiv

3+阅读 · 2018年1月23日

VIP会员

相关主题

多智能体学习

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

10+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

9+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

3+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

5+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

7+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

7+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

9+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

9+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

8+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

【伯克利博士论文】通过对齐表示和图像来跨域自适应，95页pdf

【伯克利博士论文】通过对齐表示和图像来跨域自适应，95页pdf

专知会员服务

44+阅读 · 2020年12月27日

【Cell 2020】神经网络中的持续学习

【Cell 2020】神经网络中的持续学习

专知会员服务

62+阅读 · 2020年11月7日

【DeepMind-NeurIPS 2020】元训练代理实现Bayes-optimal代理

【DeepMind-NeurIPS 2020】元训练代理实现Bayes-optimal代理

专知会员服务

12+阅读 · 2020年11月1日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

48+阅读 · 2020年10月26日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

196+阅读 · 2020年5月24日

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

专知会员服务

28+阅读 · 2020年1月11日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

专知会员服务

13+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

【论文笔记】面向智能体（Agent）发起的社交电子商务推荐的知识感知图卷积网络

【论文笔记】面向智能体（Agent）发起的社交电子商务推荐的知识感知图卷积网络

专知

5+阅读 · 2019年12月23日

CVPR 2019 | 智能体张量融合，一种保持空间结构信息的轨迹预测

CVPR 2019 | 智能体张量融合，一种保持空间结构信息的轨迹预测

AI科技评论

4+阅读 · 2019年6月11日

CVPR 2019 | 智能体张量融合，一种保持空间结构信息的轨迹预测方法

CVPR 2019 | 智能体张量融合，一种保持空间结构信息的轨迹预测方法

机器之心

6+阅读 · 2019年6月2日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

AI前线

3+阅读 · 2019年1月3日

学习如何学习的算法：简述元学习研究方向现状

学习如何学习的算法：简述元学习研究方向现状

深度学习世界

6+阅读 · 2018年4月9日

深度 | 学习如何学习的算法：简述元学习研究方向现状

深度 | 学习如何学习的算法：简述元学习研究方向现状

机器之心

8+阅读 · 2018年4月5日

不对称多代理博弈中的博弈理论解读

不对称多代理博弈中的博弈理论解读

AI前线

14+阅读 · 2018年3月8日

【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D

【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D

GAN生成式对抗网络

5+阅读 · 2018年1月13日

相关论文

Learn Dynamic-Aware State Embedding for Transfer Learning

Arxiv

0+阅读 · 2021年1月6日

A Survey of Deep RL and IL for Autonomous Driving Policy Learning

Arxiv

0+阅读 · 2021年1月6日

Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces

Arxiv

1+阅读 · 2021年1月6日

Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control

Arxiv

0+阅读 · 2021年1月6日

Latent Relation Language Models

Arxiv

21+阅读 · 2019年8月21日

KGAT: Knowledge Graph Attention Network for Recommendation

Arxiv

40+阅读 · 2019年5月20日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings

Arxiv

6+阅读 · 2018年6月7日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

Evaluating Layers of Representation in Neural Machine Translation on Part-of-Speech and Semantic Tagging Tasks

Arxiv

3+阅读 · 2018年1月23日

微信扫码咨询专知VIP会员