Human biological systems sustain life through extraordinary resilience, continually detecting damage, orchestrating targeted responses, and restoring function through self-healing. Inspired by these capabilities, this paper introduces ReCiSt, a bio-inspired agentic self-healing framework designed to achieve resilience in Distributed Computing Continuum Systems (DCCS). Modern DCCS integrate heterogeneous computing resources, ranging from resource-constrained IoT devices to high-performance cloud infrastructures, and their inherent complexity, mobility, and dynamic operating conditions expose them to frequent faults that disrupt service continuity. These challenges underscore the need for scalable, adaptive, and self-regulated resilience strategies. ReCiSt reconstructs the biological phases of Hemostasis, Inflammation, Proliferation, and Remodeling into the computational layers Containment, Diagnosis, Meta-Cognitive, and Knowledge for DCCS. These four layers perform autonomous fault isolation, causal diagnosis, adaptive recovery, and long-term knowledge consolidation through Language Model (LM)-powered agents. These agents interpret heterogeneous logs, infer root causes, refine reasoning pathways, and reconfigure resources with minimal human intervention. The proposed ReCiSt framework is evaluated on public fault datasets using multiple LMs, and no baseline comparison is included due to the scarcity of similar approaches. Nevertheless, our results, evaluated under different LMs, confirm ReCiSt's self-healing capabilities within tens of seconds with minimum of 10% of agent CPU usage. Our results also demonstrated depth of analysis to over come uncertainties and amount of micro-agents invoked to achieve resilience.


翻译:人类生物系统通过卓越的韧性维持生命,能够持续检测损伤、协调靶向响应并通过自愈恢复功能。受此启发,本文提出ReCiSt——一种仿生智能自愈框架,旨在实现分布式计算连续体系统(DCCS)的韧性。现代DCCS整合了从资源受限的物联网设备到高性能云基础设施的异构计算资源,其固有的复杂性、移动性和动态运行条件使其频繁面临中断服务连续性的故障。这些挑战凸显了对可扩展、自适应和自调节韧性策略的需求。ReCiSt将生物学的止血、炎症、增殖与重塑阶段重构为适用于DCCS的遏制层、诊断层、元认知层与知识层。这四层通过语言模型(LM)驱动的智能体实现自主故障隔离、因果诊断、自适应恢复与长期知识固化。这些智能体能够解析异构日志、推断根本原因、优化推理路径,并以最少人工干预重新配置资源。所提出的ReCiSt框架在公开故障数据集上使用多种LM进行评估,由于类似方法稀缺,未包含基线比较。尽管如此,在不同LM下的评估结果表明,ReCiSt能在数十秒内以智能体CPU使用率最低10%的条件实现自愈能力。我们的结果同时证明了该框架克服不确定性的分析深度,以及为实现韧性所调用的微智能体数量。

0
下载
关闭预览

相关内容

DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员