Regulatory institutions (from content moderation platforms to financial supervisors) observe, deliberate, and intervene only after a characteristic delay. We ask whether this processing lag alone can destabilize a multi-agent system that would otherwise remain stable, without exogenous shocks, coordination among agents, or malicious actors. We study this question in two stages. First, we analyze a delayed replicator equation in which autonomous agents receive a benefit from radical behavior but face punishment based on a lagged institutional alarm signal. We derive a closed-form critical delay threshold beyond which the unique interior equilibrium loses stability through a Hopf bifurcation, and prove via center manifold reduction that the bifurcation is supercritical (producing bounded oscillations, not explosive growth) for the entire sigmoid response-function family. Second, we embed $N=240$ agents on a network and equip them with reinforcement learning (tabular Q-learning), comparing three decision architectures in a factorial design: non-reactive agents (fixed policy), reactive agents (threshold heuristic without memory), and Q-learning agents (adaptive with cumulative value estimates). The results reveal a hierarchy opposite to the naive expectation that learning amplifies instability: non-reactive agents are immune to delay (0% runaway across all tested values), reactive agents collapse catastrophically (96% runaway by delay $\geq 8$ steps), and Q-learning agents achieve partial resilience (66% runaway at delay $= 20$). The destabilizing ingredient is reactivity to delayed signals: agents that immediately exploit low-alarm windows trigger oscillatory feedback loops. Learning buffers this through implicit punishment memory encoded in Q-values


翻译:监管机构(从内容审核平台到金融监管者)在观察、审议和干预时均存在特征性延迟。本文旨在探究:若不存在外生冲击、智能体协调或恶意行为者,此类处理延迟本身是否足以破坏多智能体系统的稳定性。我们分两个阶段研究该问题。首先,分析一类延迟复制者方程:自主智能体从激进行为中获益,但面临基于滞后机构预警信号的惩罚。我们推导出临界延迟阈值的闭式解,超过该阈值时唯一内部平衡点通过霍普夫分岔丧失稳定性,并利用中心流形约化证明:对于整个S型响应函数族,该分岔为超临界分岔(产生有界振荡而非指数增长)。其次,在网络上嵌入240个智能体并配备强化学习(表格型Q学习),通过析因设计比较三种决策架构:非反应型智能体(固定策略)、反应型智能体(无记忆阈值启发式)与Q学习智能体(具有累积价值估计的自适应机制)。结果揭示出与"学习放大不稳定性"这一朴素预期相反的层级结构:非反应型智能体对延迟免疫(所有测试延迟值下失控率为0%),反应型智能体灾难性崩溃(延迟≥8步时失控率达96%),Q学习智能体则实现部分韧性(延迟=20步时失控率为66%)。导致不稳定的关键在于对延迟信号的反应性:立即利用低预警窗口的智能体会触发振荡反馈循环。而学习机制通过编码在Q值中的隐性惩罚记忆缓冲了此类效应。

0
下载
关闭预览

相关内容

【博士论文】已对齐 AI 系统的持续脆弱性
专知会员服务
14+阅读 · 4月3日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
《不确定通信条件下的分布式多智能体决策》122页
专知会员服务
58+阅读 · 2025年2月26日
《多智能体系统中的目标管理》莱特州立大学博士论文
专知会员服务
69+阅读 · 2022年11月25日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
入门 | 什么是自注意力机制?
机器之心
17+阅读 · 2018年8月19日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
0+阅读 · 5月28日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员