Constructing a consistent shared spatial memory is a critical challenge in multi-agent systems, where partial observability and limited bandwidth often lead to catastrophic failures in coordination. We introduce a multi-agent predictive coding framework that formulates coordination as the minimization of mutual uncertainty among agents. Through an information bottleneck objective, this framework prompts agents to learn not only who and what to communicate but also when. At the foundation of this framework lies a grid-cell-like metric as internal spatial coding for self-localization, emerging spontaneously from self-supervised motion prediction. Building upon this internal spatial code, agents gradually develop a bandwidth-efficient communication mechanism and specialized neural populations that encode partners' locations-an artificial analogue of hippocampal social place cells (SPCs). These social representations are further utilized by a hierarchical reinforcement learning policy that actively explores to reduce joint uncertainty. On the Memory-Maze benchmark, our approach shows exceptional resilience to bandwidth constraints: success degrades gracefully from 73.5% to 64.4% as bandwidth shrinks from 128 to 4 bits/step, whereas a full-broadcast baseline collapses from 67.6% to 28.6%. Our findings establish a theoretically principled and biologically plausible basis for how complex social representations emerge from a unified predictive drive, leading to collective intelligence.


翻译:构建一致的共享空间记忆是多智能体系统中的关键挑战,其中部分可观测性和有限带宽常导致协调中的灾难性失败。我们提出一种多智能体预测编码框架,将协调问题形式化为智能体间相互不确定性的最小化。通过信息瓶颈目标,该框架促使智能体不仅学习与谁沟通、沟通什么,还学习何时沟通。该框架的基础是一种类网格细胞度量,作为自定位的内部空间编码,通过自监督运动预测自发涌现。基于此内部空间编码,智能体逐步发展出带宽高效的通信机制和编码伙伴位置的特化神经群体——这相当于海马体社交位置细胞的人工模拟。这些社交表征进一步被分层强化学习策略所利用,该策略通过主动探索来降低联合不确定性。在Memory-Maze基准测试中,我们的方法展现出对带宽限制的卓越鲁棒性:当带宽从128比特/步缩减至4比特/步时,成功率从73.5%平缓下降至64.4%,而全广播基线方法则从67.6%急剧崩溃至28.6%。我们的研究为复杂社交表征如何从统一的预测驱动中涌现并形成集体智能,建立了理论严谨且生物学合理的基础。

0
下载
关闭预览

相关内容

【NUS博士论文】面向交互的多智能体行为预测,156页pdf
专知会员服务
32+阅读 · 2024年11月17日
多智能体系统带宽分配及预测云控制
专知会员服务
18+阅读 · 2023年7月9日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Arxiv
0+阅读 · 1月21日
VIP会员
相关VIP内容
【NUS博士论文】面向交互的多智能体行为预测,156页pdf
专知会员服务
32+阅读 · 2024年11月17日
多智能体系统带宽分配及预测云控制
专知会员服务
18+阅读 · 2023年7月9日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员