【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学 - 专知VIP

会员服务 ·

8

ICLR 2022 · 多智能体 · 谷歌 · 普林斯顿大学 (Princeton University) · 论文 ·

2022 年 6 月 16 日

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文研究具有已知动力学和对抗性干扰动态系统的多智能体控制问题。我们的研究重点是没有集中的预计算策略的最优控制，而是对不同的智能体只配备一个稳定控制器的自适应控制策略。我们给出了一个从任何（标准）遗憾最小化控制方法到分布式算法的还原方法。该还原法保证了所产生的分布式算法相对于最佳预计算的联合策略具有较低的遗憾。我们的方法包括将在线凸优化推广到多智能体环境中，并应用最近从非随机控制中得出的单智能体工具。我们在一个过度行动的飞机模型上对我们的方法进行了经验评估。我们表明，分布式方法对故障和动态中的对抗性扰动是稳健的。

成为VIP会员查看完整内容

19

相关内容

ICLR 2022

ICLR 2022 放出了本届会议的论文接收结果：共有 54 篇 Oral（口头报告）论文和 176 篇 Spolight 论文，论文接收总数 1095 篇，最终投稿量 3391 篇，论文接收率 32.3%。

《现代深度学习的均衡方法》卡内基梅隆大学2022最新155页博士学位论文

《现代深度学习的均衡方法》卡内基梅隆大学2022最新155页博士学位论文

专知会员服务

23+阅读 · 2022年8月4日

推荐！《医疗保健中强化学习的离策略评估》哈佛大学181页博士论文

推荐！《医疗保健中强化学习的离策略评估》哈佛大学181页博士论文

专知会员服务

27+阅读 · 2022年7月21日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知会员服务

69+阅读 · 2022年7月20日

【AAMAS2022教程】多智能体分布式约束优化，235页ppt

【AAMAS2022教程】多智能体分布式约束优化，235页ppt

专知会员服务

76+阅读 · 2022年5月15日

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

专知会员服务

46+阅读 · 2022年5月10日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

NeurIPS 2021奖项出炉：微软谷歌等6 篇论文获得杰出论文奖，在线LDA获得时间检验奖

NeurIPS 2021奖项出炉：微软谷歌等6 篇论文获得杰出论文奖，在线LDA获得时间检验奖

专知会员服务

28+阅读 · 2021年12月1日

最新《深度学习不确定性导论》报告，Google大脑Balaji研究员，65页ppt

最新《深度学习不确定性导论》报告，Google大脑Balaji研究员，65页ppt

专知会员服务

81+阅读 · 2021年8月1日

【ICML2021】在线与非随机控制，普林斯顿等教程，82页ppt

专知会员服务

21+阅读 · 2021年7月28日

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

专知会员服务

13+阅读 · 2019年10月3日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知

5+阅读 · 2022年7月27日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

CVPR 2022 | 元学习在图像回归任务的表现

CVPR 2022 | 元学习在图像回归任务的表现

PaperWeekly

1+阅读 · 2022年6月11日

ICLR’22 最佳脑洞奖提名：《GPT 如何进行布朗运动?》

ICLR’22 最佳脑洞奖提名：《GPT 如何进行布朗运动?》

夕小瑶的卖萌屋

0+阅读 · 2022年4月26日

伦敦大学学院、UC伯克利联手，撰文综述深度强化学习泛化研究

伦敦大学学院、UC伯克利联手，撰文综述深度强化学习泛化研究

机器之心

1+阅读 · 2022年1月3日

NeurIPS 2021奖项出炉：微软谷歌等6 篇论文获得杰出论文奖，在线LDA获得时间检验奖

NeurIPS 2021奖项出炉：微软谷歌等6 篇论文获得杰出论文奖，在线LDA获得时间检验奖

专知

0+阅读 · 2021年12月1日

6篇杰出论文，普林斯顿获时间检验奖，NeurIPS 2021奖项出炉

6篇杰出论文，普林斯顿获时间检验奖，NeurIPS 2021奖项出炉

机器之心

0+阅读 · 2021年12月1日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

OpenAI ICLR 2018论文汇总：主要兴趣为强化学习

OpenAI ICLR 2018论文汇总：主要兴趣为强化学习

论智

19+阅读 · 2018年5月1日

基于T-S模糊模型的复杂网络的控制及参数辨识研究

国家自然科学基金

0+阅读 · 2013年12月31日

非线性优化问题与智能电网的关键技术：理论、方法和应用

国家自然科学基金

1+阅读 · 2013年12月31日

一种电力系统网络化预测阻尼控制方法及其关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

多主体、多目标、多时空尺度下的电力系统应急优化的理论与方法

国家自然科学基金

3+阅读 · 2012年12月31日

基于化学反应算法的配电系统优化规划和运行

国家自然科学基金

0+阅读 · 2011年12月31日

基于变结构方法的网络化系统的鲁棒设计研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于Lyapunov理论和粒子群优化的自励异步发电机稳定自适应PI控制

国家自然科学基金

0+阅读 · 2011年12月31日

气化炉控制系统设计的随机方法

国家自然科学基金

0+阅读 · 2011年12月31日

基于轨迹灵敏度的模型预测紧急电压控制研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

BoxShrink: From Bounding Boxes to Segmentation Masks

BoxShrink: From Bounding Boxes to Segmentation Masks

Arxiv

0+阅读 · 2022年8月5日

Monte-Carlo Robot Path Planning

Arxiv

1+阅读 · 2022年8月4日

Rearrangement-Based Manipulation via Kinodynamic Planning and Dynamic Planning Horizons

Arxiv

0+阅读 · 2022年8月3日

Estimating Uncertainty of Autonomous Vehicle Systems with Generalized Polynomial Chaos

Arxiv

0+阅读 · 2022年8月3日

Generalized Out-of-Distribution Detection: A Survey

Generalized Out-of-Distribution Detection: A Survey

Arxiv

15+阅读 · 2021年10月21日

Learning Neural Models for Natural Language Processing in the Face of Distributional Shift

Arxiv

11+阅读 · 2021年9月3日

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

Arxiv

15+阅读 · 2020年12月15日

已删除

Arxiv

33+阅读 · 2020年3月23日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

17+阅读 · 2018年6月27日

VIP会员

相关主题

普林斯顿大学 (Princeton University)

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

0+阅读 · 56分钟前

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

2+阅读 · 刚刚

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

2+阅读 · 今天14:13

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

2+阅读 · 今天14:11

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

2+阅读 · 今天14:05

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

1+阅读 · 今天13:23

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

1+阅读 · 今天13:11

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

11+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

相关VIP内容

《现代深度学习的均衡方法》卡内基梅隆大学2022最新155页博士学位论文

《现代深度学习的均衡方法》卡内基梅隆大学2022最新155页博士学位论文

专知会员服务

23+阅读 · 2022年8月4日

推荐！《医疗保健中强化学习的离策略评估》哈佛大学181页博士论文

推荐！《医疗保健中强化学习的离策略评估》哈佛大学181页博士论文

专知会员服务

27+阅读 · 2022年7月21日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知会员服务

69+阅读 · 2022年7月20日

【AAMAS2022教程】多智能体分布式约束优化，235页ppt

【AAMAS2022教程】多智能体分布式约束优化，235页ppt

专知会员服务

76+阅读 · 2022年5月15日

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

专知会员服务

46+阅读 · 2022年5月10日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

NeurIPS 2021奖项出炉：微软谷歌等6 篇论文获得杰出论文奖，在线LDA获得时间检验奖

NeurIPS 2021奖项出炉：微软谷歌等6 篇论文获得杰出论文奖，在线LDA获得时间检验奖

专知会员服务

28+阅读 · 2021年12月1日

最新《深度学习不确定性导论》报告，Google大脑Balaji研究员，65页ppt

最新《深度学习不确定性导论》报告，Google大脑Balaji研究员，65页ppt

专知会员服务

81+阅读 · 2021年8月1日

【ICML2021】在线与非随机控制，普林斯顿等教程，82页ppt

专知会员服务

21+阅读 · 2021年7月28日

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

专知会员服务

13+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知

5+阅读 · 2022年7月27日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

CVPR 2022 | 元学习在图像回归任务的表现

CVPR 2022 | 元学习在图像回归任务的表现

PaperWeekly

1+阅读 · 2022年6月11日

ICLR’22 最佳脑洞奖提名：《GPT 如何进行布朗运动?》

ICLR’22 最佳脑洞奖提名：《GPT 如何进行布朗运动?》

夕小瑶的卖萌屋

0+阅读 · 2022年4月26日

伦敦大学学院、UC伯克利联手，撰文综述深度强化学习泛化研究

伦敦大学学院、UC伯克利联手，撰文综述深度强化学习泛化研究

机器之心

1+阅读 · 2022年1月3日

NeurIPS 2021奖项出炉：微软谷歌等6 篇论文获得杰出论文奖，在线LDA获得时间检验奖

NeurIPS 2021奖项出炉：微软谷歌等6 篇论文获得杰出论文奖，在线LDA获得时间检验奖

专知

0+阅读 · 2021年12月1日

6篇杰出论文，普林斯顿获时间检验奖，NeurIPS 2021奖项出炉

6篇杰出论文，普林斯顿获时间检验奖，NeurIPS 2021奖项出炉

机器之心

0+阅读 · 2021年12月1日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

OpenAI ICLR 2018论文汇总：主要兴趣为强化学习

OpenAI ICLR 2018论文汇总：主要兴趣为强化学习

论智

19+阅读 · 2018年5月1日

相关基金

基于T-S模糊模型的复杂网络的控制及参数辨识研究

国家自然科学基金

0+阅读 · 2013年12月31日

非线性优化问题与智能电网的关键技术：理论、方法和应用

国家自然科学基金

1+阅读 · 2013年12月31日

一种电力系统网络化预测阻尼控制方法及其关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

多主体、多目标、多时空尺度下的电力系统应急优化的理论与方法

国家自然科学基金

3+阅读 · 2012年12月31日

基于化学反应算法的配电系统优化规划和运行

国家自然科学基金

0+阅读 · 2011年12月31日

基于变结构方法的网络化系统的鲁棒设计研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于Lyapunov理论和粒子群优化的自励异步发电机稳定自适应PI控制

国家自然科学基金

0+阅读 · 2011年12月31日

气化炉控制系统设计的随机方法

国家自然科学基金

0+阅读 · 2011年12月31日

基于轨迹灵敏度的模型预测紧急电压控制研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

相关论文

BoxShrink: From Bounding Boxes to Segmentation Masks

BoxShrink: From Bounding Boxes to Segmentation Masks

Arxiv

0+阅读 · 2022年8月5日

Monte-Carlo Robot Path Planning

Arxiv

1+阅读 · 2022年8月4日

Rearrangement-Based Manipulation via Kinodynamic Planning and Dynamic Planning Horizons

Arxiv

0+阅读 · 2022年8月3日

Estimating Uncertainty of Autonomous Vehicle Systems with Generalized Polynomial Chaos

Arxiv

0+阅读 · 2022年8月3日

Generalized Out-of-Distribution Detection: A Survey

Generalized Out-of-Distribution Detection: A Survey

Arxiv

15+阅读 · 2021年10月21日

Learning Neural Models for Natural Language Processing in the Face of Distributional Shift

Arxiv

11+阅读 · 2021年9月3日

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

Arxiv

15+阅读 · 2020年12月15日

已删除

Arxiv

33+阅读 · 2020年3月23日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

17+阅读 · 2018年6月27日

微信扫码咨询专知VIP会员