Large Language Model (LLM) agent systems suffer from failures that occur without external triggers -- no injection, no adversarial input, no resource exhaustion. These silent failures -- unexpected deviations from intended behavior under normal conditions -- are routinely misattributed to bugs or configuration errors. Through systematic analysis of over 40,000 controlled trials and long-term production observations spanning 100,000+ agent interactions, we identify a common structural logic underlying these failures. Building on patterns observed in our experiments, we survey the global research literature on autonomous agent reliability and synthesize 22 intrinsic properties of LLM agent systems across six lifecycle layers: foundation semantics, inter-agent transmission, memory persistence, task execution, feedback correction, and systemic evolution. We demonstrate that whenever a sufficient subset of these properties co-exist, system entropy -- the measurable accumulation of disorder: loss of output consistency, task accuracy, and cross-session coherence -- increases monotonically with interaction rounds. We formalize this as the Entropy Principle: S(t) = S0 * e^(alpha * t), with alpha measured empirically across multiple architectures. We propose the PIG (Physical Integrity Gate) Engine with the ADE (Agent Delivery Engineering) protocol suite as an engineering countermeasure to entropy-driven disorder. Our findings establish silent failure not as a bug to be fixed but as a manifestation of Intelligence Entropy -- a physical constraint to be managed through deterministic governance. We argue that any engineering effort stabilizing the structure and order of agent systems participates in a unified mission: keeping intelligent systems reliable as they grow in scale and complexity.


翻译:大语言模型(LLM)智能体系统存在一类无需外部触发即可发生的故障——既无注入攻击、无对抗性输入、亦无资源耗尽。这些静默故障(指系统在正常条件下出现预期行为的意外偏离)常被误归因于代码缺陷或配置错误。通过对40,000余组受控实验及覆盖100,000次以上智能体交互的长期生产观测进行系统分析,我们识别出这类故障背后共通的结构性逻辑。基于实验中观察到的模式,我们调查了全球关于自主智能体可靠性的研究文献,并综合提出LLM智能体系统在六大生命周期层(基础语义层、智能体间传输层、记忆持久层、任务执行层、反馈校正层、系统演化层)的22个内在属性。我们证明:当这些属性中足够多的子集共存时,系统熵(指可量化的失序累积效应,包括输出一致性衰减、任务准确率下降及跨会话连贯性丧失)将随交互轮次单调递增。我们将此形式化为熵原理:S(t)=S0*e^(α·t),其中α通过多架构实证测量。我们提出基于PIG(物理完整性守门器)引擎与ADE(智能体交付工程)协议套件作为对抗熵驱失序的工程对策。我们的研究证实:静默故障并非待修复的软件缺陷,而是智能熵的具现化——一种需通过确定性治理加以管控的物理约束。我们主张,任何旨在稳定智能体系统结构与秩序的工程努力,皆归属于同一项统一使命:确保智能系统在规模与复杂度增长中保持可靠。

0
下载
关闭预览

相关内容

LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
LLMs与生成式智能体模拟:复杂系统研究的新范式
专知会员服务
28+阅读 · 2025年6月15日
可信赖LLM智能体的研究综述:威胁与应对措施
专知会员服务
36+阅读 · 2025年3月17日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
专访 | Recurrent AI:呼叫系统的「变废为宝」
机器之心
12+阅读 · 2018年11月28日
赛尔原创 | 对话系统评价方法综述
哈工大SCIR
11+阅读 · 2017年11月13日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
22+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
22+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员