Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning - 专知论文

会员服务 ·

0

均衡 · 体模 · 模仿学习 · 多智能体 · 交互 ·

Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning

翻译：多专家匹配：论多智能体模仿学习的可剥削性

Antoine Bergerault,Volkan Cevher,Negar Mehr

Multi-agent imitation learning (MA-IL) aims to learn optimal policies from expert demonstrations of interactions in multi-agent interactive domains. Despite existing guarantees on the performance of the resulting learned policies, characterizations of how far the learned polices are from a Nash equilibrium are missing for offline MA-IL. In this paper, we demonstrate impossibility and hardness results of learning low-exploitable policies in general $n$-player Markov Games. We do so by providing examples where even exact measure matching fails, and demonstrating a new hardness result on characterizing the Nash gap given a fixed measure matching error. We then show how these challenges can be overcome using strategic dominance assumptions on the expert equilibrium. Specifically, for the case of dominant strategy expert equilibria, assuming Behavioral Cloning error $ε_{\text{BC}}$, this provides a Nash imitation gap of $\mathcal{O}\left(nε_{\text{BC}}/(1-γ)^2\right)$ for a discount factor $γ$. We generalize this result with a new notion of best-response continuity, and argue that this is implicitly encouraged by standard regularization techniques.

翻译：多智能体模仿学习（MA-IL）旨在通过多智能体交互领域中的专家示范交互数据来学习最优策略。尽管现有研究对所学策略的性能提供了保证，但在离线MA-IL中，关于所学策略与纳什均衡之间距离的刻画仍然缺失。本文证明了在一般$n$人马尔可夫博弈中学习低可剥削性策略的不可能性与困难性。我们通过构建精确度量匹配仍会失效的示例，并针对给定固定度量匹配误差时刻画纳什间隙的困难性提出新的硬度结果来论证这一点。随后，我们说明如何通过对专家均衡施加策略占优假设来克服这些挑战。具体而言，在专家均衡为占优策略均衡的情况下，假设行为克隆误差为$ε_{\text{BC}}$，可推导出纳什模仿间隙为$\mathcal{O}\left(nε_{\text{BC}}/(1-γ)^2\right)$，其中$γ$为折扣因子。我们通过提出最佳响应连续性的新概念推广了这一结果，并论证标准正则化技术会隐式促进该性质。

0

相关内容

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

深度学习时代的模仿学习：新型分类体系与最新研究进展

深度学习时代的模仿学习：新型分类体系与最新研究进展

专知会员服务

11+阅读 · 2025年11月6日

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

26+阅读 · 2025年5月7日

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

专知会员服务

50+阅读 · 2025年2月26日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

55+阅读 · 2024年8月3日

多智能体学习中合作的综述

多智能体学习中合作的综述

专知会员服务

75+阅读 · 2023年12月12日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

牛津大学《多智能体影响图的均衡优化: 理论和实践》，Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

牛津大学《多智能体影响图的均衡优化: 理论和实践》，Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

专知会员服务

26+阅读 · 2022年4月10日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

11+阅读 · 2022年11月26日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

59+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

种群遗传学的多人交互式学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Partially Observable Multi-Agent Reinforcement Learning with Information Sharing

Arxiv

0+阅读 · 3月12日

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Arxiv

0+阅读 · 3月10日

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 3月7日

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月25日

Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies

Arxiv

0+阅读 · 2月20日

Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners

Arxiv

0+阅读 · 2月19日

Puzzle it Out: Local-to-Global World Model for Offline Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月19日

Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity

Arxiv

0+阅读 · 2月3日

One Model, All Roles: Multi-Turn, Multi-Agent Self-Play Reinforcement Learning for Conversational Social Intelligence

Arxiv

0+阅读 · 2月3日

Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

最新内容

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

0+阅读 · 今天15:39

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

4+阅读 · 今天11:17

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

3+阅读 · 今天11:09

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

4+阅读 · 今天4:55

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

5+阅读 · 今天4:33

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

9+阅读 · 今天4:29

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

6+阅读 · 今天4:27

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

15+阅读 · 今天4:20

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

9+阅读 · 今天2:39

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

7+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

9+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

专知会员服务

10+阅读 · 4月28日

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

专知会员服务

15+阅读 · 4月28日

相关VIP内容

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

深度学习时代的模仿学习：新型分类体系与最新研究进展

深度学习时代的模仿学习：新型分类体系与最新研究进展

专知会员服务

11+阅读 · 2025年11月6日

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

26+阅读 · 2025年5月7日

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

专知会员服务

50+阅读 · 2025年2月26日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

55+阅读 · 2024年8月3日

多智能体学习中合作的综述

多智能体学习中合作的综述

专知会员服务

75+阅读 · 2023年12月12日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

牛津大学《多智能体影响图的均衡优化: 理论和实践》，Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

牛津大学《多智能体影响图的均衡优化: 理论和实践》，Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

专知会员服务

26+阅读 · 2022年4月10日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

11+阅读 · 2022年11月26日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

59+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

相关论文

Partially Observable Multi-Agent Reinforcement Learning with Information Sharing

Arxiv

0+阅读 · 3月12日

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Arxiv

0+阅读 · 3月10日

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 3月7日

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月25日

Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies

Arxiv

0+阅读 · 2月20日

Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners

Arxiv

0+阅读 · 2月19日

Puzzle it Out: Local-to-Global World Model for Offline Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月19日

Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity

Arxiv

0+阅读 · 2月3日

One Model, All Roles: Multi-Turn, Multi-Agent Self-Play Reinforcement Learning for Conversational Social Intelligence

Arxiv

0+阅读 · 2月3日

Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs

Arxiv

0+阅读 · 1月29日

相关基金

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

种群遗传学的多人交互式学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员