Constructing a consistent shared spatial memory is a critical challenge in multi-agent systems, where partial observability and limited bandwidth often lead to catastrophic failures in coordination. We introduce a multi-agent predictive coding framework that formulates coordination as the minimization of mutual uncertainty among agents. Through an information bottleneck objective, this framework prompts agents to learn not only who and what to communicate but also when. At the foundation of this framework lies a grid-cell-like metric as internal spatial coding for self-localization, emerging spontaneously from self-supervised motion prediction. Building upon this internal spatial code, agents gradually develop a bandwidth-efficient communication mechanism and specialized neural populations that encode partners' locations-an artificial analogue of hippocampal social place cells (SPCs). These social representations are further utilized by a hierarchical reinforcement learning policy that actively explores to reduce joint uncertainty. On the Memory-Maze benchmark, our approach shows exceptional resilience to bandwidth constraints: success degrades gracefully from 73.5% to 64.4% as bandwidth shrinks from 128 to 4 bits/step, whereas a full-broadcast baseline collapses from 67.6% to 28.6%. Our findings establish a theoretically principled and biologically plausible basis for how complex social representations emerge from a unified predictive drive, leading to collective intelligence.


翻译:构建一致的共享空间记忆是多智能体系统中的关键挑战,其中部分可观测性和有限带宽常导致协调中的灾难性失败。我们提出一种多智能体预测编码框架,将协调问题形式化为智能体间相互不确定性的最小化。通过信息瓶颈目标,该框架促使智能体不仅学习与谁沟通、沟通什么,还学习何时沟通。该框架的基础是一种类网格细胞度量,作为自定位的内部空间编码,通过自监督运动预测自发涌现。基于此内部空间编码,智能体逐步发展出带宽高效的通信机制和编码伙伴位置的特化神经群体——这相当于海马体社交位置细胞的人工模拟。这些社交表征进一步被分层强化学习策略所利用,该策略通过主动探索来降低联合不确定性。在Memory-Maze基准测试中,我们的方法展现出对带宽限制的卓越鲁棒性:当带宽从128比特/步缩减至4比特/步时,成功率从73.5%平缓下降至64.4%,而全广播基线方法则从67.6%急剧崩溃至28.6%。我们的研究为复杂社交表征如何从统一的预测驱动中涌现并形成集体智能,建立了理论严谨且生物学合理的基础。

0
下载
关闭预览

相关内容

【NUS博士论文】面向交互的多智能体行为预测,156页pdf
专知会员服务
32+阅读 · 2024年11月17日
多智能体系统带宽分配及预测云控制
专知会员服务
18+阅读 · 2023年7月9日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Arxiv
0+阅读 · 1月21日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
0+阅读 · 20分钟前
多智能体协作机制
专知会员服务
0+阅读 · 24分钟前
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
5+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
8+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
13+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关VIP内容
【NUS博士论文】面向交互的多智能体行为预测,156页pdf
专知会员服务
32+阅读 · 2024年11月17日
多智能体系统带宽分配及预测云控制
专知会员服务
18+阅读 · 2023年7月9日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员