Active particles are entities that sustain persistent out-of-equilibrium motion by consuming energy. Under certain conditions, they exhibit the tendency to self-organize through coordinated movements, such as swarming via aggregation. While performing non-cooperative foraging tasks, the emergence of such swarming behavior in foragers, exemplifying active particles, has been attributed to the partial observability of the environment, in which the presence of another forager can serve as a proxy signal to indicate the potential presence of a food source or a resource patch. In this paper, we validate this phenomenon by simulating multiple self-propelled foragers as they forage from multiple resource patches in a non-cooperative manner. These foragers operate in a continuous two-dimensional space with stochastic position updates and partial observability. We evolve a shared policy in the form of a continuous-time recurrent neural network that serves as a velocity controller for the foragers. To this end, we use an evolutionary strategy algorithm wherein the different samples of the policy-distribution are evaluated in the same rollout. Then we show that agents are able to learn to adaptively forage in the environment. Next, we show the emergence of swarming in the form of aggregation among the foragers when resource patches are absent. We observe that the strength of this swarming behavior appears to be inversely proportional to the amount of resource stored in the foragers, which supports the risk-sensitive foraging claims. Empirical analysis of the learned controller's hidden states in minimal test runs uncovers their sensitivity to the amount of resource stored in a forager. Clamping these hidden states to represent a lesser amount of resource hastens its learned aggregation behavior.


翻译:活性粒子是通过消耗能量维持持续非平衡运动的实体。在特定条件下,它们会通过协调运动表现出自组织倾向,例如通过聚集形成集群。执行非合作觅食任务时,作为活性粒子典型范例的觅食者中涌现的此类集群行为,已被归因于环境的局部可观测性——即其他觅食者的存在可作为代理信号,指示食物源或资源斑块的可能位置。本文通过模拟多个自推进觅食者以非合作方式从多个资源斑块觅食的过程,验证了这一现象。这些觅食者在连续二维空间中运行,具有随机位置更新和局部可观测性。我们以连续时间循环神经网络的形式演化出一个共享策略,作为觅食者的速度控制器。为此,我们采用进化策略算法,其中策略分布的不同样本在相同轨迹中进行评估。实验表明,智能体能够学习自适应觅食环境。随后我们证明,当资源斑块缺失时,觅食者之间会涌现出以聚集形式呈现的集群行为。观察到该集群行为的强度与觅食者体内存储的资源量呈反比关系,这支持了风险敏感觅食理论。对最小测试中学习控制器的隐藏状态进行实证分析发现,其与觅食者体内存储的资源量具有敏感性。将这些隐藏状态钳制为表征较少资源量时,会加速其习得的聚集行为。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
23+阅读 · 4月25日
《多智能体学习中的神经多样性研究》最新200页
专知会员服务
28+阅读 · 2025年9月12日
【剑桥博士论文】多智能体学习中的神经多样性
专知会员服务
21+阅读 · 2025年8月22日
多智能体自主系统《群体自主系统的实时路径规划》248页
智能集群系统的强化学习方法综述
专知会员服务
84+阅读 · 2024年1月1日
《集群概念和蜂群无人机系统》中文版
专知会员服务
199+阅读 · 2023年7月4日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
Science:脂肪细胞外泌体对巨噬细胞发挥调节功能
外泌体之家
19+阅读 · 2019年3月7日
无人机蜂群作战技术与多智能体系统理论
无人机
42+阅读 · 2019年1月27日
进攻机动作战中的机器人集群
无人机
31+阅读 · 2017年12月4日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 4月28日
Arxiv
0+阅读 · 4月27日
Arxiv
0+阅读 · 4月20日
Arxiv
0+阅读 · 3月26日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
0+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
0+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
1+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
1+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
相关VIP内容
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
《多智能体学习中的神经多样性研究》最新200页
专知会员服务
28+阅读 · 2025年9月12日
【剑桥博士论文】多智能体学习中的神经多样性
专知会员服务
21+阅读 · 2025年8月22日
多智能体自主系统《群体自主系统的实时路径规划》248页
智能集群系统的强化学习方法综述
专知会员服务
84+阅读 · 2024年1月1日
《集群概念和蜂群无人机系统》中文版
专知会员服务
199+阅读 · 2023年7月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员