Reinforcement learning (RL) has achieved strong performance in sequential decision-making, yet scaling to complex multi-agent environments remains challenging due to sparse rewards, large state-action spaces, and the difficulty of learning coordinated strategies. We propose a hierarchical architecture where a pretrained large language model (LLM) acts as a centralized strategic controller that selects among specialized RL skill policies for a team of agents, while RL policies handle reactive low-level execution. We evaluate this hybrid system in a competitive 2v2 King of the Hill environment against behavior tree (BT) and \emph{``Flat''} RL (end-to-end training without skill decomposition) baselines. The LLM+RL system achieves task performance statistically equivalent to hand-crafted BT (46.4\% vs 51.5\% win rate, $p=0.103$) while both significantly outperform Flat RL trained without skill decomposition. A user study ($n=15$) reveals that 60\% of participants perceive LLM+RL agents as the most human-like ($p=0.027$), citing behavioral adaptability and tactical variability. These results demonstrate that pretrained LLM reasoning can effectively orchestrate pretrained RL skills, achieving competitive multi-agent coordination and superior perceived believability without manual rule engineering.


翻译:暂无翻译

0
下载
关闭预览

相关内容

【博士论文】多目标奖励与偏好优化:理论与算法
专知会员服务
32+阅读 · 2025年12月12日
【NTU博士论文】基于协作式多智能体强化学习的决策制定
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
《网络战仿真中的多智能体强化学习》最新42页报告
专知会员服务
47+阅读 · 2023年7月11日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
90+阅读 · 2022年7月11日
专知会员服务
214+阅读 · 2019年8月30日
「基于通信的多智能体强化学习」 进展综述
【MIT博士论文】数据高效强化学习,176页pdf
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【博士论文】多目标奖励与偏好优化:理论与算法
专知会员服务
32+阅读 · 2025年12月12日
【NTU博士论文】基于协作式多智能体强化学习的决策制定
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
《网络战仿真中的多智能体强化学习》最新42页报告
专知会员服务
47+阅读 · 2023年7月11日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
90+阅读 · 2022年7月11日
专知会员服务
214+阅读 · 2019年8月30日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员