继《2024行动号召:乌克兰战争对未来部队的启示》探讨了俄乌战争第一年的军事经验教训后,本书审视了随着战争进入第二年,战争性质所发生的变化。作者们从四个不同角度探究这场冲突:信息优势(情报、信息作战和网络);地面作战(火力、机动、部队防护、任务式指挥和雇佣军);多域作战(空中与海上);以及跨领域主题(外交、保障、创新与适应)。战争的第二年见证了第一年出现的创新作战方式——无人机、无人航空系统及电子战攻防能力——与自一战以来在欧洲未曾以当前规模出现的堑壕战相结合。以瓦格纳集团为代表的雇佣军私营军事公司的使用,制造了高度悬疑的时刻,并导致俄罗斯部队结构和战术发生变化。盟国后续支持的延迟考验了乌克兰武装部队的决心和作战能力,但他们仍坚持战斗,并阻挡了俄罗斯的推进。贯穿始终,这场冲突描绘了一幅未来战争的鲜明图景,同时也为美国陆军训练与条令司令部提供了经验教训,以准备联合部队应对未来大规模作战行动的挑战。

随着俄乌战争在2024年2月进入第三个年头,冲突中出现了新的动态。第一年出现的创新作战技术的使用,与更多常规战术相结合,导致战线在年内几乎没有移动,并引发了巴赫穆特和阿夫迪夫卡等高伤亡战役。雇佣军瓦格纳集团戏剧性地崛起与衰落,使俄罗斯的部队结构和战术发生了根本性改变。自一战以来,堑壕战首次以当前规模重现,最明显的体现是围绕克里米亚、长达81英里的“苏罗维金”深层防线,甚至从太空可见。巩固盟友的决心对于向乌克兰提供其继续自卫所需的支持仍然至关重要。

美国陆军战争学院今年的综合研究项目考察了战争第二年展开过程中战争性质的变化。今年的作者们从四个不同角度探究这场冲突:信息优势(情报、信息作战和网络);地面作战(火力、机动、部队防护、任务式指挥和雇佣军);多域作战(空中与海上);以及跨领域主题(外交、保障、创新与适应)。

关于战争第一年的综合研究项目曾描述美军正处于一个转折点,需要从乌克兰在人员、弹药、指挥控制和保障方面面临的战略纵深挑战中汲取教训。战争的第二年则提供了一系列新的教训,这些教训源于在对抗性通信环境中,信息、技术、电子战和分布式作战这一新战场上的挑战,同时也强化了在大规模作战行动中,沿坚固接触线进行机动、部队防护、火力和多域作战的经典传统。

尽管没有证据表明冲突会在近期得到解决,但本书也考虑了将乌克兰和俄罗斯带到谈判桌前以结束战争所需的条件,以及乌克兰战后未来的各种可能性。乌克兰和俄罗斯在任务控制、保障与供应链、以及接纳或拒绝创新与适应方面的做法,都对美国陆军训练与条令司令部的训练重点提出了及时的问题。这场冲突也为未来冲突将如何受到海量数字信息和人工智能成熟度的影响提供了重要见解。最后,本书探讨了韧性、弗拉基米尔·泽连斯基等领导人在维持乌克兰决心方面的重要性,以及美国和北约在向乌克兰提供其急需的武器系统时所采取的安全援助和升级管理策略。

在所有领域——包括网络和太空战——俄乌战争持续展示了大规模作战行动环境下战争性质的演变。本书着眼于美军条令、训练、战术、行动和战略中潜在的薄弱环节,分享旨在加强未来作战能力的经验教训。

成为VIP会员查看完整内容
29

人工智能赋能技术快速进步并融入目标打击行动,已引发围绕其伦理、法律及作战影响的持续辩论。过去十年间,关于人工智能在战争中的讨论主要集中在自主武器系统上,这部分由2013年开始的相关讨论及在联合国《特定常规武器公约》框架下设立的“致命性自主武器系统政府专家组”所推动的规范化进程所驱动,该进程完全聚焦于自主武器系统。然而,人工智能决策支持系统日益融入目标打击实践,引入了新的复杂性,需要此辩论中更广泛的利益攸关方予以更多关注。人工智能决策支持系统是指“利用人工智能技术收集和分析数据、提供关于作战环境的信息以及可操作建议,旨在协助军事决策者评估与法律合规性相关因素的工具,例如采取预防措施和确保攻击的比例性”。与无需人工干预直接选择和攻击目标的自主武器系统不同,人工智能决策支持系统在军事行动的信息和分析维度内运作,这导致一种假设,即它们仅用于增强而非取代人类决策。它们被描述为在不对使用武力产生直接影响的前提下,增强人类决策过程。这种描述引发了一种说法,即鉴于指挥官、操作员及更广泛用户的决策最终会经过多层次的人工监督来审查,整合人工智能决策支持系统几乎不构成挑战。这些层级包括使用额外情报源进行目标核实与验证的过程。因此,这些系统中的错误或不准确之处常被认为非关键性的,因为假定其可通过强有力的人工监督得以缓解。

然而,近期冲突已显示出人工智能决策支持系统被用于目标选择甚至提名等关键职能的确凿证据,这可能制约、限制甚至将人类排除在联合目标打击周期的这些核心步骤之外。这引发了关于此类系统对决策过程的影响以及用户遵守国际人道法义务能力的重大法律关切,特别是在采取一切可行预防措施以保护平民和平民物体免受攻击影响,并确保遵守区分原则和比例原则的义务方面。

由于人工智能决策支持系统被框定为仅仅是工具,其使用如何影响联合目标打击周期内认知决策过程的问题一直被分析不足且被低估。此外,对自主武器系统的持续关注以牺牲对人工智能决策支持系统的关注为代价,模糊了在塑造作战和战略结果方面对人工智能日益增长的依赖。辩论中的这一空白也归因于围绕特定人工智能决策支持系统如何运作存在有问题的透明度缺失,以及一贯缺乏甚至粗略审视其实际使用方式的能力。尽管关于自主武器系统的政策和法律讨论中的某些经验教训可以且应当有意义的推及到人工智能决策支持系统的背景中,但这些综合因素导致了对人工智能决策支持系统可能如何影响或在联合目标打击周期内运作的分析不足。

本文旨在弥补这些空白,并挑战当前对人工智能决策支持系统的主流框架设定、其看似无问题的性质以及关于人类用户在与这些系统互动中所扮演角色的假设。虽然人工智能决策支持系统在本质上具有多样性,即其设计和所提供的建议类型存在显著差异,但作为案例研究,考察了据称以色列国防军对其的使用,主要聚焦于自2023年10月7日哈马斯袭击以色列以来的使用情况。首先必须申明,此举并非旨在最终证实此案例研究中各要素的真实性,而是为了展示某些人工智能决策支持系统使用的具体作战现实,这些现实在一定程度上可被推广,因为它们也反映了其他人工智能决策支持系统集成时出现的更广泛的人机协同问题。本文面向关注当今开发、集成和部署此类技术用于作战的军方、行业代表和政策制定者。同样呼吁研究人员进一步在这一研究不足的领域进行跨学科和跨领域的合作与交流。希望这能作为一个号召,不仅全面分析人工智能决策支持系统带来的任何益处,更重要的是分析其可能引入的风险。

在全文,探讨了人工智能决策支持系统在联合目标打击周期内的法律影响。特别旨在强调,在联合目标打击周期中使用人工智能决策支持系统时,遵守攻击中预防措施原则下的法律义务的重要性及相关挑战。通过以下方式展开论述:首先,对联合目标打击周期进行描述性概述,以展示国际人道法原则在何处及如何被操作化。接着,概述了据称以色列国防军使用人工智能决策支持系统的情况作为案例研究。然后,对据称以色列国防军使用人工智能决策支持系统的情况进行法律分析,并根据联合目标打击周期内的法律义务,审视这些系统的集成和使用所产生的影响,以突显其中的矛盾与关切。在全文,审视了与人机协同相关的更广泛关切,包括决策速度和规模提升的影响。此外,论及偏见的影响、这些偏见如何影响联合目标打击周期内的人类认知决策,以及人工智能决策支持系统的使用结合此类系统引入的准确性和错误率问题,会引发何种法律影响。最后,以关于在联合目标打击周期内使用人工智能决策支持系统的建议作为结语,呼吁通过聚焦人工智能决策支持系统在联合目标打击周期中被忽视但关键的作用,以及围绕其使用的更广泛辩论和潜在监管框架的转变,来重新评估其应用。

成为VIP会员查看完整内容
29

未来空战的胜负将不取决于单个平台的性能,而取决于分布式认知系统的一致性、韧性和作战节奏。有人与无人航空器必须作为一个在不确定性、间歇性连通和对抗干扰下运作的异质智能体协同网络,进行感知、推理和行动。本文为协同空战中的共享代理建立了一个统一的科学框架,该框架整合了博伊德的OODA动态、恩德斯利式态势感知、信念-愿望-意图形式化模型以及现代多智能体决策理论。

引入了一个协同认知的不变量——共享代理状态Σ(t) = 〈B*,D*,I*〉,它捕捉了智能体在保持全局一致性的同时进行本地行动所需的最低限度的信念、愿望和意图重叠。为受限通信下的意图对齐提供了形式化定义、收敛条件和互信息阈值。提出了一个分层参考架构,将通信、感知、规划和意图合成映射到可度量的性能和韧性指标。进一步推导了通信完整性、感知一致性、决策一致性和自主恢复能力的定量指标,并扩展了适应性和灵活性增益。这些指标被纳入一个通用的作战增益函数,将认知韧性与任务成果联系起来。

所得理论提供了:1. 基于意图的指挥控制的严格科学基础;2. 对抗环境中分布式自主性的原则性设计空间;3. 本地智能体认知与全局作战优势之间的可度量桥梁。该框架可直接应用于新兴项目,如欧洲协同空战标准化倡议、美国空军协同作战飞机、国防高级研究计划局空战演进项目以及北约多域任务系统。

空战正在经历从平台中心作战到分布式、以意图为中心的系统之系统的相变。现代协同空战涉及由有人和无人航空器组成的异质编队,其有效性较少依赖原始感知或机动能力,而更多取决于分布式认知的一致性。在通信对抗、模糊性和对抗干扰下,决定性的资源是智能体维持重叠信念、对齐目标和兼容意图的能力——称之为共享代理。传统的空战模型侧重于态势感知和博伊德的OODA循环。孤立地看,这些框架描述的是个体认知循环,而非多个此类循环如何在分布式编队中同步。相反,现代多智能体系统研究为推理、协调与合作提供了形式化结构,但缺乏与军事指挥控制的条令和时效性要求的映射。

本文将这两大传统整合到一个统一的协同空战科学模型中。中心论点是,意图一致性——即智能体信念、愿望和意图的对齐——是分布式任务有效性的首要决定因素。通过以下方式将其形式化:

• 共享代理状态的数学定义;

• 认知对齐的信息论阈值;

• 在时变、间歇连通的通信图上意图传播的收敛条件;

• 具有可度量、受安全性约束接口的分层架构;

• 量化对抗扰动下鲁棒性的韧性指标;

• 将认知与战场节奏联系起来的作战增益函数。

经典模型是线性的——BDI模型将认知和通信嵌入递归推理中,使得分布式人工智能能够在没有显式中央控制的情况下应用于自适应协同。

除了理论贡献之外,该框架的构建还旨在直接适用于当前进行中的项目,例如欧洲协同空战标准化倡议、美国空军协同作战飞机项目、国防高级研究计划局空战演进项目、北约网络使能作战,以及无人机或现代软件定义航空器的发展——后者是一个新兴概念,它使用软件来抽象和控制航空器的功能,摆脱传统的依赖硬件的系统。

本文余下部分结构如下。第2节介绍数学预备知识和建模假设。第3节将智能体、共享认知和意图一致性形式化。第4节分析不确定性下的通信、对齐动态和收敛性。第5节引入韧性理论和作战增益模型。第6节为在协同空战中实现分布式智能提供一个参考架构。第7节将其与统一的时间概念联系起来,并以对现代战场和未来研究方向的启示作为结论。

与信息时间理论的关系。 当前工作的一个互补性理论基础在“迈向统一的时间理论:时间作为跨因果接口的单调信息流”一文中提供。该理论将时间解释为跨因果边界的单调信息精化。本文开发的分布式认知模型是该框架的一个直接的操作性实例:共享代理对应于一个正在精化的信息状态,智能体间的通信形成因果接口,而OODA节奏则成为信息精化的速率。这一关联在第7节中明确阐述。

成为VIP会员查看完整内容
31

世界正站在一场决定性技术革命的边缘:人工智能作为人类历史上最新的——也可能是迄今为止影响最广泛、最深远的一种——通用技术而出现。与其前身工业革命类似,随之而来的变革将在决定国家命运和重塑全球力量格局中发挥主要作用。认识到这些趋势,美国政府已采取关键步骤以确保在人工智能技术栈的关键组成部分处于领导地位。但尽管半导体芯片、训练运行和数据中心至关重要,美国一直忽视了一个关于人工智能与国家竞争力的更大真相。本分析认为,美国政策制定者需要开始更严肃地思考人工智能时代国家优势的更广泛社会基础。引领这个时代的国家,将不仅拥有最好的人工智能模型。它们将采取必要步骤——包括将人工智能应用于数十个社会目标——来使自己的社会更具竞争力。本工作认为,归根结底,人工智能的竞争挑战主要是社会性的,而非技术性的。

结论基于三个相互重叠的研究与分析过程。首先,回顾了关于工业革命的根源与后果以及更广泛的技术革命历史的大量文献,并以兰德公司先前关于国家竞争特质的研究为基础。其次,研究了目前大量关于人工智能可能产生的经济、社会、政治和军事影响的文献。第三,将当时领先的三个生成式人工智能模型的公开版本——Claude、ChatGPT 和 Gemini——用作顾问,征询它们对各种问题的评估。为构建社会优势的概念框架,依据了一项为期三年的兰德公司为五角大楼净评估办公室所做的研究,该研究确定了在长期竞争中取得成功至关重要的社会特质。那项研究提出了七大社会特征以及一系列对国家命运塑造起着超常重要作用的其他因素。这些特征为本文提供了框架;七个章节的每一章都评估了人工智能与其中一项国家特质的交集。

结论与建议

本分析就人工智能为国家优势提供巨大机遇同时也会扰乱和挑战社会的方式,提出了数十项发现。分析强调了四个首要主题:

  • 技术革命具有强大的地缘政治冲击波。一些国家繁荣昌盛,一些国家落后,但广泛的技术转型代表着一个国家可能面临的对大战略最深刻的挑战之一。
  • 人工智能时代的竞争优势不仅来自掌握人工智能的狭义技术——数据中心、算法、模型和半导体——也来自该技术更广泛的社会整合与效应。国家的繁荣程度,取决于其社会为新技术扩散与应用提供的肥沃土壤,以及它们控制和塑造转型效应以维持健康、连贯、稳定社会的能力。在人工智能时代的成功,更多是一个社会挑战而非技术挑战。
  • 人工智能革命将冲击本已不稳定的社会、经济和政治环境;从国家活力和竞争力的角度来看,最根本的问题在于,社会是利用人工智能来缓解这些日益增长的危险,还是允许其加剧这些危险。人工智能与这一更广泛转型的互动方式——无论其最终结果是赋能人性化、稳定的向后工业化组织模式转变,还是进一步分裂和破坏正在进行这种演进的社会——都将在决定人工智能产生支持性还是破坏性影响方面发挥关键作用。
  • 人工智能与人类能动性的关系不仅是道德、政治和哲学问题,也对国家竞争优势具有深远影响。人工智能对人类能动性的影响与活力、凝聚力、团结、意志力、机会、智力能量以及所有其他构成持续竞争地位的要素密切相关。

更具体地说,描述了人工智能对构成国家竞争力至关重要的七大社会特征中每一项的影响。在每一个领域,人工智能都有可能提供巨大的新能力,但也可能威胁到凝聚力和活力的社会基础。分析详细讨论了每一项特征,并得出了许多具体的经验教训。示例性发现包括:

  • 国家雄心、意志力和共同认同对长期优势至关重要,其命运将深受人工智能革命特性的影响。即将到来的转型可以强化这些特质,注入新的国家使命感,但前提是其对社会的广泛影响倾向于赋能公民并创造共享利益感。国家凝聚力在人工智能革命中面临考验。
  • 人工智能模型在个人机会的规模和性质方面提供了变革性进步的潜力。但如果没有明确的政策来塑造其发展以实现广泛的赋权,它就不会以公平的方式产生这种效果。
  • 人工智能模型的普及,特别是人机交互聊天机器人的普及,将对人类社会互动产生不可预测且可能剧烈的深远影响。广泛使用聊天机器人式工具作为人际互动的替代品,可能严重威胁社会资本、公民社会机构以及其他集体认同和规范设定的源泉。在某些情况下,人工智能模型可能越来越多地根据自己的意愿来塑造社会场景。
  • 人工智能通过其产生的加速增长及其他方式带来的财政和预算效应,可以通过缓解现有债务负担并为一系列重大新国家项目开辟空间来增强国家实力。
  • 人工智能与组织改革的未来——在高效治理将成为主要差异化因素的时代,这是一个关键的优先事项——深度交织。人工智能有潜力极大地推动工业时代官僚形态亟需的精简,但如果缺乏有意识的管理,同样很容易产生相反的效果——加剧公民对大型组织和流程的疏离感。
  • 人工智能对智识和认识论环境的影响将对国家竞争优势产生显著影响。机会在于激发新一轮的智力活力,并缓解信息环境的碎片化。风险在于,人工智能将进一步腐蚀共享的信息生态系统,并产生认知卸载,使公民依赖模型替他们思考。

最后,建议在八个领域开展重大举措,为人工智能时代的社会竞争力奠定基础。第12章详细描述了这些举措,并提出了实现每项举措的具体建议。如下所示:

  • 建立公共部门的人工智能能力。
  • 培养相关人才。
  • 催化能在全社会拓宽机会的人工智能应用。
  • 发起一项保障自主能动性的全国性运动。
  • 资助一个智识发现的新时代。
  • 利用人工智能和针对性法律改善信息环境。
  • 将人工智能与体制改革相结合,以精简并提高公共部门官僚机构的效能。
  • 创建前瞻性的人工智能预见和战略职能。

这个广泛而雄心勃勃的议程,无异于一份促成国家深刻转型的清单,既是对新兴人工智能工具的回应,也是对它们的运用。人工智能革命正值社会经济发生深刻动荡的时刻,这一事实使得变革的要求更加紧迫和充满挑战。这项惊人的新技术蕴含着巨大的潜力,可以被吸纳到这样的振兴过程中。但作为一个社会,必须下定决心,深思熟虑且有效地利用人工智能来实现这些成果。这些优先事项中的许多项,本质上是一场广泛行动,旨在利用人工智能来增强而非破坏人类的自主能动性。那些能够引导人工智能革命,使其效应朝着赋能、能动性和尊严方向发展的社会将表现出色。而那些让人工智能叠加在剥夺权力和掠夺性力量及制度之上,进一步剥夺人们能动性和尊严的社会,将遭受非常真实的长期竞争劣势。

国家复兴的必要性尤其令人生畏,部分原因在于,要以真实和持久的方式实现它,需要社会各个层面的举措,而不仅仅是政府行动的形式。兰德公司关于国家竞争力的研究——在强调有效的公共机构和积极有为的国家在为竞争优势创造条件方面的作用的同时——倡导自下而上、基层发起、实验性和涌现性的努力,而非计划、强制和官僚化的方式。美国社会面临的问题不仅仅是美国政府是否会应对其所面临的挑战。而是美国社会是否会以许多独立且相互支持的方式做到这一点。为如此广泛的复兴创造条件,领导人需要制定一个成功愿景,并确定一套初步行动,为社会在人工智能革命可能以多种不同方式展开的背景下获得竞争优势做好准备。本分析旨在提供一个理解这一挑战的框架,以及启动这一深刻议程的初步实用性政策思路。

成为VIP会员查看完整内容
28

高超音速武器的出现已超越当前防空体系架构,暴露出威胁探测传感器、拦截弹及指挥控制结构中的关键漏洞。国家防空战略因此必须向一个结合定向能武器、动能拦截弹及持久的地基/天基传感的集成化杀伤网架构演进。近期多地区的冲突强调了这些调整的紧迫性,因为导弹的速度、弹道和机动性日益超越传统系统的能力。传统雷达和串行化的指挥控制流程不足以应对利用威胁探测传感器盲区的高超音速威胁。天基红外星座、人工智能增强的融合以及拦截弹的动态任务分配,对于构建韧性与响应能力至关重要。最终,防御高超音速导弹不仅在于拦截高速移动的目标,更在于建立一个能够跨所有领域和高度进行预警、快速决策和精确交战防御生态系统。唯有此类集成的、分层的方法才能在高超音速时代维持战略稳定。本文对旨在应对这个以高速、复杂性和不可预测性为特征的新时代的防空架构,进行了一次战略与技术层面的重新评估。

高超音速导弹背后的关键技术

首先,必须对高超音速系统使用的关键推进与制导技术形成扎实的理解。在推进方面,超燃冲压发动机通过压缩和燃烧超音速气流来维持5-15+马赫的飞行——然而它们需要精确的进气道几何形状,面临点火不稳定性,并需应对超过2000K的极高热载荷。液体火箭发动机则更简单紧凑,但在振动载荷和冷却方面面临挑战。同样关键的是高超音速速度下导弹周围形成的等离子体所带来的导航挑战。电磁黑障会干扰无线电频率通信和全球定位系统,迫使导弹依赖机载解决方案来保持精度。有前景的制导架构现正集成惯性导航系统与源自低地球轨道星座的卫星视距修正。太空探索技术公司的“星链”在“星舰”原型机上的演示表明,高带宽通信可以在部分等离子体鞘套条件下持续进行。这意味着,即使在等离子体负载下,与卫星网络的持续连接也可以恢复飞行中的位置数据。

下一代高超音速导弹可以集成惯性导航系统、抗等离子体数据链和多卫星视距更新,以维持高精度航迹。这种混合导航方法将提供比单独使用全球定位系统或惯性导航系统更可靠的精度,后两者存在漂移或黑障问题。利用商业低地球轨道星座或专用情报监视侦察卫星,为克服等离子体引起的制导丢失提供了一条途径,确保高超音速武器能够保持对准目标。

成为VIP会员查看完整内容
23

摘要—知识图谱(KG)提供了结构化、机器可执行的信息表示,支撑着搜索、推理及决策过程。然而,在组织级对话等复杂领域中,由于数据存在噪声、动态演变且高度依赖语境,构建知识图谱仍面临挑战。

本论文通过两个互补视角探讨了知识图谱构建(KGC)如何适应这些条件:(i) 分析了“预训练-微调”(PTFT)范式在应用于对话数据时的局限性;(ii) 探索了新兴的“预训练-提示-预测”(PPP)范式如何提供更灵活、更具成本效益的工作流。 在第一部分中,我们调查了基于 PTFT 的信息抽取模型在现实世界变化下的脆弱性。研究表明:命名实体识别中的分布偏移会导致预测性能大幅下降;静态主题模型虽然在语义上连贯,但难以检测新主题的涌现;而多方邮件中的跨篇章指代消解则暴露了当前方法的持久性弱点。这些发现突显了特定任务模型在面对输入偏移、时间演变和长对话结构时的局限性。 在第二部分中,我们转向基于 PPP 的工作流,利用大语言模型(LLM)的提示工程(Prompting)而非微调。我们证明,只要对图谱模式(Schema)知识进行精心编码,经过指令微调的 LLM 就能在关系抽取中取得具有竞争力的结果。我们引入了“以知识为中心的提示词构建”方法来引导上下文学习(In-context Learning),研究表明,融合了模式约束和示例的提示词能显著提升抽取质量。最后,我们提出了一种用于数据准备的混合系统 TableSwift,该系统在 LLM 生成的代码与确定性回退机制之间路由任务,从而在保持转换、错误检测和实体匹配准确性的同时降低成本。 综上所述,本论文描绘了 KGC 领域的一个关键范式转变:从依赖专门化模型的 PTFT 流水线,转向可提示(Promptable)、可适应且具备成本意识的 PPP 工作流。通过诊断 PTFT 的缺陷并设计基于 PPP 的解决方案,本论文为在复杂的现实领域构建可靠的知识图谱提供了实证见解与实践架构。

成为VIP会员查看完整内容
25

摘要—在处理长程复杂任务(如多轮对话、博弈、科学发现)时,记忆机制已成为基于大语言模型(LLM)的智能体之核心模块。记忆赋予了智能体知识积累、迭代推理及自我演化的能力。在众多的研究范式中,图结构凭借其在建模关系依赖、组织层级信息以及支持高效检索方面的固有优势,成为智能体记忆的一种强有力载体。 本文从基于图的角度对智能体记忆进行了全面综述。首先,我们提出了智能体记忆的分类体系,包括短期记忆与长期记忆、知识记忆与经验记忆、非结构化记忆与结构化记忆,并提供了基于图记忆的实现视角。其次,我们根据智能体记忆的生命周期,系统地分析了基于图的智能体记忆关键技术,涵盖了将数据转换为内容的记忆提取、高效组织数据的存储、检索相关内容以支持推理的检索,以及更新记忆内容的演化。第三,我们总结了支持自我演化智能体记忆开发与评估的开源库及基准测试。此外,我们还探讨了多样化的应用场景。最后,本文识别了当前面临的关键挑战并指明了未来的研究方向。本综述旨在提供具有实践价值的见解,以推动更高效、更可靠的基于图的智能体记忆系统的发展。 相关资源(包括研究论文、开源数据及项目)已汇总至社区:https://github.com/DEEP-PolyU/Awesome-GraphMemory。

索引词—智能体,多智能体系统,智能体记忆,知识图谱,自我演化,基于图的记忆

I. 引言

过去几年见证了基于大语言模型(LLM)智能体的飞速发展。这些智能体在从软件工程 [1]、数学推理 [2] 到多智能体任务 [3] 及开放世界探索 [4] 等多个领域的复杂长程任务中取得了显著成功。LLM 固有的语言理解、生成与推理能力,使得基于 LLM 的智能体能够自主感知环境并做出决策,从而减少了人工干预并重塑了智能系统的范式 [5]。 尽管取得了显著进展,基于 LLM 的智能体仍受限于 LLM 的内在局限性:(i) 知识截断: LLM 在具有固定时间边界的静态数据集上进行训练,导致其存在知识截断问题,无法整合实时信息(如当前金融数据)或预训练语料库之外的特定领域知识。这一局限性削弱了它们适应动态环境和开放式场景的能力。(ii) 工具能力不足: 尽管工具使用是基于 LLM 智能体的核心能力 [6], [7],但现有的 LLM 在高效学习和应用新工具方面表现有限,这极大限制了智能体的性能。(iii) 性能饱和: 由于无法积累任务特定的见解并利用历史经验在长期的交互中改进决策策略,基于 LLM 的智能体在迭代式长程任务中表现出持续性的失败。因此,智能体可能会反复犯同样的错误,而无法表现出通过纠错来成功完成任务的学习行为。 为了应对这些挑战,“记忆” [8] 已成为推动 LLM 智能体实现四个关键目标的核心组件:i) 个性化与专门化 [9]: 记忆使智能体能够捕获用户偏好、交互历史和特定任务上下文,从而提供定制化响应,例如记住软件工程中的工作流习惯或对话场景中的沟通风格。记忆架起了通用知识与特定上下文之间的桥梁,通过存储普适事实与特定历史,使响应基于个性化且具备上下文感知能力的信息 [10]。ii) 超越上下文窗口的长程推理: 虽然 LLM 在有限的上下文窗口和静态参数化知识内运行,但记忆系统提供了无限的外部存储,支持持续学习与自适应。记忆允许智能体跨越较长的时间跨度保留信息,积累部署后的经验(包括成功与失败),并在不重新训练模型的情况下动态优化策略。iii) 自我提升 [11]: 通过积累经验知识、推理模式和反馈,智能体记忆支持适应性和性能的迭代增强,从而实现基于 LLM 的智能体在不更新参数的情况下在任务中自我提升。iv) 幻觉缓解 [12]: 将输出锚定在结构化、可验证的记忆内容中,可以减少对可能不可靠的参数化知识的依赖。本质上,记忆将“无状态”的反应式模型转变为了“有状态”的自适应实体,使其具备构建关系、基于轨迹学习以及实现日益复杂的个性化行为的能力。 传统的智能体记忆实现主要采用线性、非结构化或简单的键值对存储范式,例如固定长度的 Token 序列、向量数据库和基于日志的缓冲区 [13], [14]。虽然这些框架支持基本的信息存储与检索,但智能体记忆需要更复杂的功能,如关系建模、层级组织和因果依赖。基于图的智能体记忆 [15], [16] 已成为 2025–2026 年的研究前沿,它正从事实的被动“日志”转变为经验的结构化拓扑模型,保留了信息随时间演进的连接方式。与传统的线性或非结构化记忆不同,基于图的记忆利用其在建模实体关系、捕获层级语义以及支持灵活遍历与推理方面的固有能力,能够自然地编码记忆元素之间的关系依赖。即使是平铺式记忆(Plain memory)也可以被视为一种具有平凡(Trivial)关系的退化图,这使得基于图的智能体记忆成为了智能体记忆设计的通用且灵活的框架。近期,针对 LLM 智能体的图结构记忆架构研究激增,包括知识图谱(KG)、时序图、超图、层级树/图以及混合图 [17], [18],这些研究在层级任务规划、多轮对话理解及神经符号推理等多样化场景中证明了其有效性。 因此,我们提出了一项全面的综述,旨在整合基于图的智能体记忆的最前沿进展,对其核心技术进行分类,综合其应用,并识别开放性挑战。我们的贡献主要包括四个方面: * 我们提出了智能体记忆的分类体系,包括短期与长期记忆、知识与经验记忆、非结构化与结构化记忆,并提供了基于图记忆的实现视角(第三节)。 * 我们系统地分析了关键的记忆管理技术,涵盖记忆提取(第四节)、记忆存储(第五节)、记忆检索(第六节)和记忆演化(第七节)。 * 我们总结了支持在不同应用场景下开发和评估自我演化图结构智能体记忆的开源库和基准测试(第八、九节)。 * 我们识别了关键挑战并概述了未来的研究方向,以推动高效、可靠的基于图的智能体记忆系统的发展(第十节)。

本综述旨在提供基于图的智能体记忆的全景概览,为研究人员改进记忆设计提供价值见解,并使从业者能够针对特定应用选择合适的结构和技术。

成为VIP会员查看完整内容
25

强化学习在近期的学术与商业研究项目中的应用,已催生出能够达到或超越人类表现水平的稳健系统。本论文的目标是确定通过强化学习训练的智能体是否能够在小型战斗场景中实现最优性能。在一系列计算实验中,训练在一个能够实施确定性与随机性战斗模型的简单聚合级、构造性仿真中进行,并通过集中兵力和节约兵力这两项战术原则来验证神经网络性能。总体而言,神经网络能够习得理想行为,其中战斗模型和强化学习算法对性能影响最为显著。此外,在集中兵力为最佳战术的场景中,训练持续时间和学习率被确定为最重要的训练超参数。然而,当节约兵力更为理想时,折扣因子是唯一具有显著影响的超参数。总而言之,本论文的结论是,强化学习为在战斗仿真中发展智能行为提供了一种有前景的方法,可应用于训练或分析领域。建议未来研究考察更庞大、更复杂的训练场景,以充分理解强化学习的能力与局限。

人工智能的能力在过去几十年稳步发展,已在跳棋、国际象棋和围棋等游戏中击败世界冠军级人类选手。然而,深度强化学习的最新进展现已使研究人员能够在流行的即时战略游戏和多人联机在线竞技游戏中达到职业人类水平,如《星际争霸II》和《DOTA 2》。与传统棋盘游戏不同,即时战略游戏和多人联机在线竞技游戏为玩家提供的是对环境的不完整描绘,要求基于估计和不完善信息做出决策。这为军事领域带来了机遇,因为在构造性仿真中表现出色的人工智能智能体有潜力改进专业军事教育、支持行动方案分析,并验证条令策略。

本论文所进行的研究考察了强化学习是否能够在小型战术交战中产生最优的进攻性人工智能假想敌行为。就此而言,最优行为与战术行为是不同的概念;然而,交战被设计为使最优行为符合战争的两项战术原则——集中兵力与节约兵力。人工智能智能体在一个回合制、聚合级的构造性仿真中接受训练,其中实体代表连级或排级规模的单位。这些实体进行机动的训练环境是一个十乘十的无特征平原,划分为六边形空间。因此,实体每回合能够以六种可能方向之一进行离散移动,这是兵棋推演中常用的方法。采用渐进式方法,训练前馈神经网络进行日益复杂的交战,包括二对一、二对二和三对二场景。在每种情况下,神经网络控制两个或更多红色进攻性假想敌实体,而静态的蓝色己方实体则保持固定防御。测试了数种不同的强化学习算法和大量神经网络训练超参数配置,以确定影响性能的主要因素。

本论文的第一部分通过测试几种不同的战斗模型和强化学习算法,考察了智能体能否在二对一场景中习得理想行为。在此情况下,智能体性能根据集中兵力这一战争原则进行验证,因为最佳行动方案是智能体同时将力量集中到对手单位上。总体而言,智能体习得了期望的行为,尽管在确定性战斗环境中训练的智能体通常优于在随机性环境中训练的智能体。具体来说,在确定性模型中训练的智能体在机动上更为同步,花费更少时间即可使两个人智能体控制的实体汇聚到对手单位上。下一个测试配置是二对二场景。同样地,该情况下的性能根据集中兵力原则进行验证,因为最佳策略是两个红色实体以先后顺序攻击并击败每个蓝色防御单位。此项任务也取得了成功,训练后的智能体以合理的顺序协同摧毁了对手。再次观察到,在确定性战斗模型中训练的智能体表现优于随机性模型中的智能体,显示出更快的集中兵力对抗对手的能力。

本论文的第二部分根据节约兵力这一战术概念验证了人工智能性能。在三对二场景中,三个人工智能控制的进攻连对阵一个静态排和一个以防御阵型部署的连。在此情况下,出现了两种不同的行为。第一种严格遵循集中兵力原则,所有三个人工智能控制的实体协同对敌方单位进行连续攻击。然而,第二种行为则展示了不同的战争原则——节约兵力,因为三个人工智能控制的实体分成了两组。在这种情况下,一组两个实体攻击连级规模单位,同时一个单独的实体牵制排级单位。这些行为之间的性能差异被发现与折扣因子有关。较低的折扣因子产生注重速度和节约兵力的智能体,而接近1的较大折扣因子则训练智能体集中攻击目标。此外,隐藏层的大小和数量似乎影响了整体性能质量,但这未被发现具有统计学显著性。

本论文的最后一部分比较了三种强化学习算法在实施确定性战斗模型的二对一场景中的性能,包括普通策略梯度算法、近端策略优化算法和信任域策略优化算法。就此而言,普通策略梯度算法与近端策略优化算法之间没有性能差异,而信任域策略优化算法通过表现出比近端策略优化算法和普通策略梯度算法更高的团队合作与协调水平,优于后两者。

总体而言,本论文表明强化学习技术能够在小型战斗场景中实现最优性能。研究发现,训练环境中实施的战斗模型类型和算法显著影响智能体性能,确定性战斗模型通常产生更优结果。此外,在智能体可以选择追求两种不同策略的场景中,所选的超参数,特别是折扣因子,将影响最终行为。虽然此项研究在将强化学习应用于军事领域方面取得了显著进展,但仍需研究更复杂多样的场景,以充分理解强化学习的能力与局限。

成为VIP会员查看完整内容
21
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员