Unsupervised Partner Design Enables Robust Ad-hoc Teamwork - 专知论文

会员服务 ·

0

无监督 · 设计 · 监督 · 鲁棒 · 协作 ·

Unsupervised Partner Design Enables Robust Ad-hoc Teamwork

翻译：无监督搭档设计实现鲁棒临时团队协作

Constantin Ruhdorfer,Matteo Bortoletto,Victor Oei,Anna Penzkofer,Andreas Bulling

from arxiv, 27 pages

We introduce Unsupervised Partner Design (UPD), a population-free multi-agent reinforcement learning method for robust ad-hoc teamwork. UPD generates training partners on-the-fly and selects them adaptively based on a learnability criterion, removing the need for pre-trained partner populations or manual parameter tuning. We show that this simple mechanism enables effective partner diversity and can be extended to joint partner-environment selection when a procedural level generator is available. Across Level-Based Foraging, Overcooked-AI, and the Overcooked Generalisation Challenge, UPD consistently achieves strong performance compared to both population-based and population-free baselines. In a human-AI user study, agents trained with UPD achieve higher returns and are rated as more adaptive, more human-like, and less frustrating than all evaluated baseline methods.

翻译：我们提出无监督搭档设计（Unsupervised Partner Design, UPD），一种无需群体预设的多智能体强化学习方法，用于鲁棒的临时团队协作。UPD实时生成训练搭档，并基于可学习性准则自适应选择搭档，无需预训练的搭档群体或手动参数调整。我们证明，这一简单机制能够有效实现搭档多样性，并在存在程序化关卡生成器时，可扩展至联合搭档-环境选择。在基于层级的觅食（Level-Based Foraging）、Overcooked-AI及Overcooked通用挑战（Overcooked Generalisation Challenge）任务中，相较于基于群体和无群体预设的基线方法，UPD始终取得卓越性能。在人机交互用户研究中，经UPD训练的智能体获得更高回报，并在适应性、拟人化程度及减少挫败感方面均优于所有评估的基线方法。

0

相关内容

无监督

《U-Plan：一个用于异构无人机系统协调与实时监管的集成框架》

《U-Plan：一个用于异构无人机系统协调与实时监管的集成框架》

专知会员服务

18+阅读 · 5月19日

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图》最新论文

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图》最新论文

专知会员服务

72+阅读 · 2025年2月21日

《利用自适应交互增强有人无人编队协同》217页

《利用自适应交互增强有人无人编队协同》217页

专知会员服务

95+阅读 · 2024年11月23日

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

专知会员服务

25+阅读 · 2022年12月4日

【美海军Overmatch项目与JADC2的互联】《多域作战和联合互操作性的无人系统（UXS）身份验证和密钥交换要求》美国海军NPS 2022最新108页论文

【美海军Overmatch项目与JADC2的互联】《多域作战和联合互操作性的无人系统（UXS）身份验证和密钥交换要求》美国海军NPS 2022最新108页论文

专知会员服务

73+阅读 · 2022年11月2日

【硬核书】多无人机鲁棒编队控制，145页pdf

【硬核书】多无人机鲁棒编队控制，145页pdf

专知会员服务

80+阅读 · 2022年10月14日

【ICML2022】Orchestra: 通过全局一致聚类的无监督联邦学习

【ICML2022】Orchestra: 通过全局一致聚类的无监督联邦学习

专知会员服务

17+阅读 · 2022年5月27日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

[ICLR2022]PU learning（Positive and Unlabeled learning）任务的mixup方法

[ICLR2022]PU learning（Positive and Unlabeled learning）任务的mixup方法

专知会员服务

19+阅读 · 2022年2月2日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

美国陆军“项目融合（PC）”最新简介2022年6月2日更新，美国国会研究服务处（CRS）

美国陆军“项目融合（PC）”最新简介2022年6月2日更新，美国国会研究服务处（CRS）

专知

85+阅读 · 2022年6月11日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【论文笔记】韩家炜团队无监督主题分类构建法

【论文笔记】韩家炜团队无监督主题分类构建法

专知

11+阅读 · 2019年10月19日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

Github项目推荐 | Manopth - PyTorch的MANO层，生成手部网格作为可微分层

Github项目推荐 | Manopth - PyTorch的MANO层，生成手部网格作为可微分层

AI研习社

10+阅读 · 2019年3月20日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DARPA征集无人集群战术思路

DARPA征集无人集群战术思路

无人机

19+阅读 · 2017年10月18日

支持新产品快速设计的复杂产品系统功能模块化方法

国家自然科学基金

1+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

非线性切换系统在线鲁棒近似优化控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

An Attention Mechanism for Robust Multimodal Integration in a Global Workspace Architecture

Arxiv

0+阅读 · 6月13日

Engineering Robustness into Personal Agents with the AI Workflow Store

Arxiv

0+阅读 · 6月10日

Robust Instruction Compliance in Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月10日

Learning to Contest: Decentralized Robust Fairness in Cooperative MARL via Cross-Attention

Arxiv

0+阅读 · 6月4日

Robust Shielding for Safe Reinforcement Learning

Arxiv

0+阅读 · 5月29日

Dreaming Of Others: Latent Teammate Modeling In World Models For Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月29日

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月29日

Multi-Agent Teams Hold Experts Back

Arxiv

0+阅读 · 5月28日

SmartIterator: Visual Analytics Workflows for Supervising Unsupervised Data Grouping

Arxiv

0+阅读 · 5月27日

Randomise Alone, Reach as a Team

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《U-Plan：一个用于异构无人机系统协调与实时监管的集成框架》

《U-Plan：一个用于异构无人机系统协调与实时监管的集成框架》

专知会员服务

18+阅读 · 5月19日

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图》最新论文

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图》最新论文

专知会员服务

72+阅读 · 2025年2月21日

《利用自适应交互增强有人无人编队协同》217页

《利用自适应交互增强有人无人编队协同》217页

专知会员服务

95+阅读 · 2024年11月23日

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

专知会员服务

25+阅读 · 2022年12月4日

【美海军Overmatch项目与JADC2的互联】《多域作战和联合互操作性的无人系统（UXS）身份验证和密钥交换要求》美国海军NPS 2022最新108页论文

【美海军Overmatch项目与JADC2的互联】《多域作战和联合互操作性的无人系统（UXS）身份验证和密钥交换要求》美国海军NPS 2022最新108页论文

专知会员服务

73+阅读 · 2022年11月2日

【硬核书】多无人机鲁棒编队控制，145页pdf

【硬核书】多无人机鲁棒编队控制，145页pdf

专知会员服务

80+阅读 · 2022年10月14日

【ICML2022】Orchestra: 通过全局一致聚类的无监督联邦学习

【ICML2022】Orchestra: 通过全局一致聚类的无监督联邦学习

专知会员服务

17+阅读 · 2022年5月27日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

[ICLR2022]PU learning（Positive and Unlabeled learning）任务的mixup方法

[ICLR2022]PU learning（Positive and Unlabeled learning）任务的mixup方法

专知会员服务

19+阅读 · 2022年2月2日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

美国陆军“项目融合（PC）”最新简介2022年6月2日更新，美国国会研究服务处（CRS）

美国陆军“项目融合（PC）”最新简介2022年6月2日更新，美国国会研究服务处（CRS）

专知

85+阅读 · 2022年6月11日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【论文笔记】韩家炜团队无监督主题分类构建法

【论文笔记】韩家炜团队无监督主题分类构建法

专知

11+阅读 · 2019年10月19日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

Github项目推荐 | Manopth - PyTorch的MANO层，生成手部网格作为可微分层

Github项目推荐 | Manopth - PyTorch的MANO层，生成手部网格作为可微分层

AI研习社

10+阅读 · 2019年3月20日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DARPA征集无人集群战术思路

DARPA征集无人集群战术思路

无人机

19+阅读 · 2017年10月18日

相关论文

An Attention Mechanism for Robust Multimodal Integration in a Global Workspace Architecture

Arxiv

0+阅读 · 6月13日

Engineering Robustness into Personal Agents with the AI Workflow Store

Arxiv

0+阅读 · 6月10日

Robust Instruction Compliance in Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月10日

Learning to Contest: Decentralized Robust Fairness in Cooperative MARL via Cross-Attention

Arxiv

0+阅读 · 6月4日

Robust Shielding for Safe Reinforcement Learning

Arxiv

0+阅读 · 5月29日

Dreaming Of Others: Latent Teammate Modeling In World Models For Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月29日

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月29日

Multi-Agent Teams Hold Experts Back

Arxiv

0+阅读 · 5月28日

SmartIterator: Visual Analytics Workflows for Supervising Unsupervised Data Grouping

Arxiv

0+阅读 · 5月27日

Randomise Alone, Reach as a Team

Arxiv

0+阅读 · 5月13日

相关基金

支持新产品快速设计的复杂产品系统功能模块化方法

国家自然科学基金

1+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

非线性切换系统在线鲁棒近似优化控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员