Model-Based Decentralized Policy Optimization - 专知论文

会员服务 ·

0

潜变量/隐变量 · 优化器 · 泛函 · 潜在 · 可约的 ·

2023 年 2 月 16 日

Model-Based Decentralized Policy Optimization

翻译：基于模型的去中心化策略优化

Hao Luo,Jiechuan Jiang,Zongqing Lu

from arxiv, 24 pages

Decentralized policy optimization has been commonly used in cooperative multi-agent tasks. However, since all agents are updating their policies simultaneously, from the perspective of individual agents, the environment is non-stationary, resulting in it being hard to guarantee monotonic policy improvement. To help the policy improvement be stable and monotonic, we propose model-based decentralized policy optimization (MDPO), which incorporates a latent variable function to help construct the transition and reward function from an individual perspective. We theoretically analyze that the policy optimization of MDPO is more stable than model-free decentralized policy optimization. Moreover, due to non-stationarity, the latent variable function is varying and hard to be modeled. We further propose a latent variable prediction method to reduce the error of the latent variable function, which theoretically contributes to the monotonic policy improvement. Empirically, MDPO can indeed obtain superior performance than model-free decentralized policy optimization in a variety of cooperative multi-agent tasks.

翻译：去中心化策略优化常用于合作型多智能体任务。然而，由于所有智能体同时更新其策略，从单个智能体的视角来看，环境具有非平稳性，这导致难以保证策略的单调改进。为使策略改进稳定且单调，我们提出了基于模型的去中心化策略优化（MDPO），该方法引入了一个隐变量函数，以帮助从个体视角构建状态转移函数和奖励函数。我们从理论上分析了MDPO的策略优化比无模型的去中心化策略优化更稳定。此外，由于非平稳性，隐变量函数会动态变化且难以建模。我们进一步提出了一种隐变量预测方法，以减少隐变量函数的误差，这在理论上有助于实现单调的策略改进。实验结果表明，在多种合作型多智能体任务中，MDPO确实能获得比无模型的去中心化策略优化更优的性能。

0

相关内容

潜变量/隐变量

潜变量/隐变量

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

112+阅读 · 2020年5月15日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

量化金融强化学习论文集合

量化金融强化学习论文集合

专知

14+阅读 · 2019年12月18日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

细菌角蛋白酶KerF降解角蛋白过程与分子机制

国家自然科学基金

0+阅读 · 2015年12月31日

关于细菌逃避中性粒细胞追逐的最优策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

新型Plectin-1荧光、MRI靶向分子探针对胰腺癌早期诊断的实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

mRNA甲基化检测概率图模型

国家自然科学基金

2+阅读 · 2014年12月31日

有机单分子膜在金属及金属氧化物表面吸附规律的研究

国家自然科学基金

0+阅读 · 2013年12月31日

Intraflagellar Transport运输纤毛蛋白的分子机理

国家自然科学基金

0+阅读 · 2012年12月31日

低温基质隔离红外光谱研究硅-过渡金属氢桥键

国家自然科学基金

0+阅读 · 2012年12月31日

CXCR7/SDF-1/ITAC信号调控前列腺癌细胞迁徙、侵袭及增殖的作用机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

大承气汤调控AR42J细胞凋亡-坏死转换分子开关的转化研究

国家自然科学基金

0+阅读 · 2009年12月31日

从类胡萝卜素特异结合蛋白提取纯化研究动物富集类胡萝卜素机理

国家自然科学基金

0+阅读 · 2009年12月31日

Model-Agnostic Decentralized Collaborative Learning for On-Device POI Recommendation

Arxiv

0+阅读 · 2023年4月8日

BlockDFL: A Blockchain-based Fully Decentralized Federated Learning Framework

Arxiv

0+阅读 · 2023年4月6日

Decentralized gradient descent maximization method for composite nonconvex strongly-concave minimax problems

Arxiv

0+阅读 · 2023年4月5日

Action Pick-up in Dynamic Action Space Reinforcement Learning

Arxiv

0+阅读 · 2023年4月3日

Decentralized Local Stochastic Extra-Gradient for Variational Inequalities

Arxiv

0+阅读 · 2023年4月2日

Federated Ensemble Model-based Reinforcement Learning in Edge Computing

Arxiv

0+阅读 · 2023年4月1日

Max-Plus Synchronization in Decentralized Trading Systems

Arxiv

0+阅读 · 2023年4月1日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Distributed Machine Learning on Mobile Devices: A Survey

Distributed Machine Learning on Mobile Devices: A Survey

Arxiv

37+阅读 · 2019年9月18日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员

文章信息

相关主题

潜变量/隐变量

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

112+阅读 · 2020年5月15日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

量化金融强化学习论文集合

量化金融强化学习论文集合

专知

14+阅读 · 2019年12月18日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Model-Agnostic Decentralized Collaborative Learning for On-Device POI Recommendation

Arxiv

0+阅读 · 2023年4月8日

BlockDFL: A Blockchain-based Fully Decentralized Federated Learning Framework

Arxiv

0+阅读 · 2023年4月6日

Decentralized gradient descent maximization method for composite nonconvex strongly-concave minimax problems

Arxiv

0+阅读 · 2023年4月5日

Action Pick-up in Dynamic Action Space Reinforcement Learning

Arxiv

0+阅读 · 2023年4月3日

Decentralized Local Stochastic Extra-Gradient for Variational Inequalities

Arxiv

0+阅读 · 2023年4月2日

Federated Ensemble Model-based Reinforcement Learning in Edge Computing

Arxiv

0+阅读 · 2023年4月1日

Max-Plus Synchronization in Decentralized Trading Systems

Arxiv

0+阅读 · 2023年4月1日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Distributed Machine Learning on Mobile Devices: A Survey

Distributed Machine Learning on Mobile Devices: A Survey

Arxiv

37+阅读 · 2019年9月18日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

相关基金

细菌角蛋白酶KerF降解角蛋白过程与分子机制

国家自然科学基金

0+阅读 · 2015年12月31日

关于细菌逃避中性粒细胞追逐的最优策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

新型Plectin-1荧光、MRI靶向分子探针对胰腺癌早期诊断的实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

mRNA甲基化检测概率图模型

国家自然科学基金

2+阅读 · 2014年12月31日

有机单分子膜在金属及金属氧化物表面吸附规律的研究

国家自然科学基金

0+阅读 · 2013年12月31日

Intraflagellar Transport运输纤毛蛋白的分子机理

国家自然科学基金

0+阅读 · 2012年12月31日

低温基质隔离红外光谱研究硅-过渡金属氢桥键

国家自然科学基金

0+阅读 · 2012年12月31日

CXCR7/SDF-1/ITAC信号调控前列腺癌细胞迁徙、侵袭及增殖的作用机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

大承气汤调控AR42J细胞凋亡-坏死转换分子开关的转化研究

国家自然科学基金

0+阅读 · 2009年12月31日

从类胡萝卜素特异结合蛋白提取纯化研究动物富集类胡萝卜素机理

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员