Zero-Shot Coordination in Ad Hoc Teams with Generalized Policy Improvement and Difference Rewards - 专知论文

会员服务 ·

0

Ad hoc · 策略改进 · 情景 · 推断 · MoDELS ·

Zero-Shot Coordination in Ad Hoc Teams with Generalized Policy Improvement and Difference Rewards

翻译：暂无翻译

Rupal Nigam,Niket Parikh,Hamid Osooli,Mikihisa Yuasa,Jacob Heglund,Huy T. Tran

from arxiv, 10 pages, 8 figures. To appear in proceedings of 25th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2026)

Real-world multi-agent systems may require ad hoc teaming, where an agent must coordinate with other previously unseen teammates to solve a task in a zero-shot manner. Prior work often either selects a pretrained policy based on an inferred model of the new teammates or pretrains a single policy that is robust to potential teammates. Instead, we propose to leverage all pretrained policies in a zero-shot transfer setting. We formalize this problem as an ad hoc multi-agent Markov decision process and present a solution that uses two key ideas, generalized policy improvement and difference rewards, for efficient and effective knowledge transfer between different teams. We empirically demonstrate that our algorithm, Generalized Policy improvement for Ad hoc Teaming (GPAT), successfully enables zero-shot transfer to new teams in three simulated environments: cooperative foraging, predator-prey, and Overcooked. We also demonstrate our algorithm in a real-world multi-robot setting.

翻译：暂无翻译

0

相关内容

Ad hoc

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

26+阅读 · 2025年11月17日

《基于二元优化与图学习的多智能体行动方案自动生成》

《基于二元优化与图学习的多智能体行动方案自动生成》

专知会员服务

26+阅读 · 2025年6月26日

中文版 | 集中式与分布式多智能体AI协调策略

中文版 | 集中式与分布式多智能体AI协调策略

专知会员服务

21+阅读 · 2025年5月8日

美陆军2025最新顶层条令《作战》ADP 3-0

美陆军2025最新顶层条令《作战》ADP 3-0

专知会员服务

56+阅读 · 2025年4月5日

基于Multi-Agent的无人机集群体系自主作战系统设计

基于Multi-Agent的无人机集群体系自主作战系统设计

专知会员服务

75+阅读 · 2024年4月8日

《异质多Agent团队中联合武器战术的演变》美国空军技术学院2022最新论文

《异质多Agent团队中联合武器战术的演变》美国空军技术学院2022最新论文

专知会员服务

55+阅读 · 2022年10月18日

《多智能体系统的自主合作优化分配和控制框架》美国空军技术学院83页论文

《多智能体系统的自主合作优化分配和控制框架》美国空军技术学院83页论文

专知会员服务

103+阅读 · 2022年9月27日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【KDD2021】基于多智能体协同竞价博弈的电商搜索广告多目标竞价优化

专知会员服务

35+阅读 · 2021年6月14日

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

专知会员服务

45+阅读 · 2020年5月15日

【美海军系统工程顶点分析报告】《针对混合部队2025 的任务工程》2022美国海军130页论文

【美海军系统工程顶点分析报告】《针对混合部队2025 的任务工程》2022美国海军130页论文

专知

65+阅读 · 2022年10月29日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

兴军亮Science评述：多人德州扑克博弈新突破

兴军亮Science评述：多人德州扑克博弈新突破

中国科学院自动化研究所

19+阅读 · 2019年7月15日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

夫妻双双中标2018年NSFC青基，顺便说下之前心得

夫妻双双中标2018年NSFC青基，顺便说下之前心得

算法与数学之美

21+阅读 · 2018年9月4日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

淘宝前端工程体系DEF——支撑起了几百前端的日常研发

淘宝前端工程体系DEF——支撑起了几百前端的日常研发

QCon

14+阅读 · 2018年3月22日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

18+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

微小卫星编队的自主协同容错控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多特征融合的视频足球比赛中的团队行为识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

骨髓基质神经干细胞联合法舒地尔多视角治疗AD的探索

国家自然科学基金

0+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

面向武器系统协同的态势感知一致性计算方法研究

国家自然科学基金

55+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

DC-Ada: Reward-Only Decentralized Sensor Adaptation for Heterogeneous Multi-Robot Teams

Arxiv

0+阅读 · 4月29日

AdaFair-MARL: Enforcing Adaptive Fairness Constraints in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 4月22日

ADAPT: Benchmarking Commonsense Planning under Unspecified Affordance Constraints

Arxiv

0+阅读 · 4月20日

Safe and Policy-Compliant Multi-Agent Orchestration for Enterprise AI

Arxiv

0+阅读 · 4月19日

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

Arxiv

0+阅读 · 4月17日

Detecting Multi-Agent Collusion Through Multi-Agent Interpretability

Arxiv

0+阅读 · 4月1日

Context-Triggered Contingency Games for Strategic Multi-Agent Interaction

Arxiv

0+阅读 · 3月31日

More Isn't Always Better: Balancing Decision Accuracy and Conformity Pressures in Multi-AI Advice

Arxiv

0+阅读 · 3月23日

Decentralized and Communication-Free Multi-Robot Navigation through Distributed Games

Arxiv

41+阅读 · 2021年9月15日

Graph-based Hierarchical Relevance Matching Signals for Ad-hoc Retrieval

Arxiv

10+阅读 · 2021年2月22日

VIP会员

文章信息

相关主题

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

10+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

5+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

7+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

7+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

9+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

14+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

6+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

9+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

3+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

13+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

10+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

26+阅读 · 2025年11月17日

《基于二元优化与图学习的多智能体行动方案自动生成》

《基于二元优化与图学习的多智能体行动方案自动生成》

专知会员服务

26+阅读 · 2025年6月26日

中文版 | 集中式与分布式多智能体AI协调策略

中文版 | 集中式与分布式多智能体AI协调策略

专知会员服务

21+阅读 · 2025年5月8日

美陆军2025最新顶层条令《作战》ADP 3-0

美陆军2025最新顶层条令《作战》ADP 3-0

专知会员服务

56+阅读 · 2025年4月5日

基于Multi-Agent的无人机集群体系自主作战系统设计

基于Multi-Agent的无人机集群体系自主作战系统设计

专知会员服务

75+阅读 · 2024年4月8日

《异质多Agent团队中联合武器战术的演变》美国空军技术学院2022最新论文

《异质多Agent团队中联合武器战术的演变》美国空军技术学院2022最新论文

专知会员服务

55+阅读 · 2022年10月18日

《多智能体系统的自主合作优化分配和控制框架》美国空军技术学院83页论文

《多智能体系统的自主合作优化分配和控制框架》美国空军技术学院83页论文

专知会员服务

103+阅读 · 2022年9月27日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【KDD2021】基于多智能体协同竞价博弈的电商搜索广告多目标竞价优化

专知会员服务

35+阅读 · 2021年6月14日

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

专知会员服务

45+阅读 · 2020年5月15日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

【美海军系统工程顶点分析报告】《针对混合部队2025 的任务工程》2022美国海军130页论文

【美海军系统工程顶点分析报告】《针对混合部队2025 的任务工程》2022美国海军130页论文

专知

65+阅读 · 2022年10月29日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

兴军亮Science评述：多人德州扑克博弈新突破

兴军亮Science评述：多人德州扑克博弈新突破

中国科学院自动化研究所

19+阅读 · 2019年7月15日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

夫妻双双中标2018年NSFC青基，顺便说下之前心得

夫妻双双中标2018年NSFC青基，顺便说下之前心得

算法与数学之美

21+阅读 · 2018年9月4日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

淘宝前端工程体系DEF——支撑起了几百前端的日常研发

淘宝前端工程体系DEF——支撑起了几百前端的日常研发

QCon

14+阅读 · 2018年3月22日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

相关论文

DC-Ada: Reward-Only Decentralized Sensor Adaptation for Heterogeneous Multi-Robot Teams

Arxiv

0+阅读 · 4月29日

AdaFair-MARL: Enforcing Adaptive Fairness Constraints in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 4月22日

ADAPT: Benchmarking Commonsense Planning under Unspecified Affordance Constraints

Arxiv

0+阅读 · 4月20日

Safe and Policy-Compliant Multi-Agent Orchestration for Enterprise AI

Arxiv

0+阅读 · 4月19日

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

Arxiv

0+阅读 · 4月17日

Detecting Multi-Agent Collusion Through Multi-Agent Interpretability

Arxiv

0+阅读 · 4月1日

Context-Triggered Contingency Games for Strategic Multi-Agent Interaction

Arxiv

0+阅读 · 3月31日

More Isn't Always Better: Balancing Decision Accuracy and Conformity Pressures in Multi-AI Advice

Arxiv

0+阅读 · 3月23日

Decentralized and Communication-Free Multi-Robot Navigation through Distributed Games

Arxiv

41+阅读 · 2021年9月15日

Graph-based Hierarchical Relevance Matching Signals for Ad-hoc Retrieval

Arxiv

10+阅读 · 2021年2月22日

相关基金

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

18+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

微小卫星编队的自主协同容错控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多特征融合的视频足球比赛中的团队行为识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

骨髓基质神经干细胞联合法舒地尔多视角治疗AD的探索

国家自然科学基金

0+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

面向武器系统协同的态势感知一致性计算方法研究

国家自然科学基金

55+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员