随着现代战争形态的演变,本顶石项目通过识别并优先排序导弹和无人机杀伤链中的系统性弱点,以应对破坏对手作战行动的战略需求。本研究在既有作战模型基础上,聚焦于脆弱性的定量评估,从而扩展了先前的杀伤链分析。为此,项目首先为此应用开发了一个新的脆弱性框架和一个结构化、多阶段的方法论。这个高层框架整合了三个阶段:典型杀伤链定义、系统性脆弱性识别以及多方法定量分析。随后应用该方法论来评估“红色”脆弱性,使用改进的故障模式与影响分析生成数据驱动的弱点排序。然后,利用离散事件建模与仿真框架,通过想定量化了利用关键脆弱性所产生的作战影响。此分析揭示了如何通过非动能能力——特别是高功率微波和超短脉冲激光系统——来利用那些被优先排序的脆弱性。主要结论是,对手最依赖的环节——全球定位系统导航、集中式指挥控制节点以及持续的情报监视侦察数据链——是其最关键的弱点,这为制定消除此类威胁的非动能战略提供了一个可操作的框架。
本顶石报告共分为八章。第一章为引言,包括项目的问题陈述、目标、利益相关方、研究团队及流程方法。第二章涵盖团队进行的文献综述,总结了项目的关键研究领域。第三章确立了脆弱性分析方法论,详述了用于识别、评估和优先排序对手弱点的三阶段框架。第四章定义了对手杀伤链,概述了导弹和无人机作战的阶段与功能,并引入了杀伤网概念。第五章系统地识别了导弹、无人机及杀伤网架构每个阶段内的脆弱性。第六章呈现了核心分析,使用改进的故障模式与影响分析方法对脆弱性进行评分,利用攻击路径图可视化利用途径,并运用建模与仿真框架量化作战影响。第七章提供了高功率微波和超短脉冲激光能力的技术概述,并讨论了它们针对已识别杀伤链脆弱性的应用。最后,第八章总结了研究发现、建议及未来工作方向,作为报告的结论。
低成本、可消耗无人航空系统的扩散代表了现代战争的一种颠覆性变革,迫使各国从根本上重新评估军事学说、兵力结构和战略投资优先次序。本文采用定量的兵力结构优化模型,以研究在2022-2030年期间,大规模可消耗系统对美国军事转型的战略影响。兵力结构优化模型将基于兰彻斯特方程的战斗效能函数与线性规划优化相结合,横跨五种作战场景:高强度常规冲突、有限区域冲突、反叛乱行动、灰色地带战争以及人道主义援助/灾难救援。利用源自奥瑞克斯装备损失数据库、斯德哥尔摩国际和平研究所武器转让数据库以及美国国会预算办公室出版物的经验校准数据,本分析确定了在预算约束条件下,先进传统平台与大规模可消耗系统之间的最优配置比例。结果表明,最优可消耗系统配置比例在65%至85%之间,具体取决于作战场景,显著超出了当前的兵力结构假设。研究揭示了可消耗系统相对于传统平台的成本效益比为8.3:1,且在持续损耗条件下保持能力的兵力韧性优势为2:1。假设检验表明,传统的30%航空预算用于可消耗系统的阈值过于保守(假设H1未获支持),而有人-无人协同则能产生平均11.3%的效能提升(假设H2得到部分支持)。研究结果为国防预算分配提供了实证基础,支持美国国防部的“复制者”计划,并为大国竞争背景下的兵力结构决策提供参考。理论贡献包括将兰彻斯特损耗理论扩展至异质兵力构成,以及为国防规划应用开发了依赖场景的优化方法。
关键词:可消耗系统,兵力结构优化,军事转型,无人航空系统,国防经济学,复制者计划,兰彻斯特方程,成本效益分析,大国竞争,联合作战
本文由六章组成,旨在建立理论基础、呈现研究方法、报告结果并讨论其对军事转型政策的启示。
第一章,引言,确立了研究背景、问题陈述、目的、研究问题和指导本研究的假设。本章将研究置于由自主系统兴起所驱动的更广泛的军事转型背景中,并阐明其对理论、实践和政策的重要意义。
第二章,文献综述,综合了四个领域的学术成果:军事转型理论与无人航空系统演进、可消耗性战争与乌克兰冲突教训、国防经济学与兵力结构优化,以及技术伦理与未来战争概念。本综述指出了当前知识体系中本研究所要弥补的空白,并建立了指导模型开发的理论框架。
第三章,研究方法,介绍了兵力结构优化模型,包括数学模型、数据来源、分析程序和验证方法。本章详细说明了五种作战场景、变量操作化以及用于假设检验的统计方法。
第四章,结果,报告了来自兵力结构优化模型优化、场景分析和假设检验的发现。本章展示了跨场景的最优兵力构成、平台类型之间的量化权衡,以及对四个假设的统计检验。
第五章,讨论,结合研究问题对结果进行了解释,将研究发现与先前文献联系起来,并阐述了理论和实践意义。本章讨论了研究的局限性,并对未来研究方向提出了建议。
第六章,结论,综合了主要发现,阐明了对知识体系的贡献,并提出了针对国防规划的政策建议。本章以强调基于证据的兵力结构转型紧迫性的行动号召作为结束。
这是一份围绕现代 Coding Agent 产品设计的学习型研究笔记,重点关注:整体架构、提示词系统、Agent 编排、Skills、Plugins、Hooks、MCP、权限与工具调用机制,以及这些系统为什么会让 Agent 产品更稳定、更好用。
https://github.com/tvytlx/ai-agent-deep-dive?tab=readme-ov-file!
本论文集收录了于2026年2月25日至27日在奥地利萨尔茨堡举行的第二届无人机与无人系统国际会议的同行评议论文。本卷旨在简要概述无人与自主平台领域当前的研究与工程实践——涵盖使能技术、方法、实验验证以及推动该领域向更安全、能力更强、可扩展性更高的部署迈进的应用案例研究。本卷收录的论文既突出了基础研究,也强调了应用驱动的创新。读者将看到涉及无人机检测与无损检测、协同导航与载荷运输、编队飞行与多智能体控制、弹性通信与专用5G网络、空中冲突解脱测试平台、合成孔径雷达概念、包括干扰/欺骗分析在内的安全主题,以及面向下一代自主性的仿真环境等方面的研究成果。这些工作共同展示了一个共同目标:使无人系统能力更强、更可信赖、更易于部署——同时牢牢把握安全、鲁棒性和社会效益。
集成于无人机平台的主动热成像检测系统
数字孪生驱动的多层测绘与协同微型飞行器
具备自主导航能力的协同无人机载荷运输
基于深度强化学习的无人机回收——使用带磁力抓取器的移动机械臂
用于固定翼无人机的燃料电池混合推进系统实验评估
基于分布式多智能体控制的自主编队飞行系统开发
用于港口安全的高级无人载具系统
空压机配置对航空用质子交换膜燃料电池系统影响的研究
战斗机布局无人机改出失速的控制律设计
基于雷达散射截面的三角翼无人机机翼形状优化
用于无人机控制系统的伺服电机控制库设计与实现
经济安全约束下无人机创新生态系统的政策与制度驱动力研究
基于氢燃料电池的C-172R飞机功率分析的系统建模技术研究
论公共网络军民两用对中空长航时遥控驾驶飞机系统的潜力
通过融合空中态势与协同任务规划改进危机响应
用于宇宙射线衰减的富氢3D打印螺旋二十四面体晶格低地球轨道卫星复合材料
移动无人系统的数据卸载——专用5G网络中的吞吐量与延迟评估
STRIDE——实时飞行冲突解脱实验仿真测试平台
基于多准则决策的无人机系统可用空域评估集成流程
基于低地球轨道信号情报星座的深度学习信号分类无人机通信干扰源地理定位
结合思维链引导的混合蒸馏用于边缘-无人机控制代码生成
用于声学无人机定位的多频、多方向阵列优化
韩国氢燃料电池动力正常类飞机认证策略与规划研究
重心偏移对纵列式直升机阵风响应的影响
卡尔曼条件化动作分块变换器——面向动态物体抓取以实现空中回收系统
分布式无人机合成孔径雷达:一种基于分布式无人机的合成孔径雷达系统,用于研究与演示新颖应用、成像算法及未来天基雷达概念
超越擂台:面向无人机足球攻防智能体的多智能体强化学习框架
有界空域内无人机蜂群的分散式势场控制
GA-SDG:一个基于ROS 2的遗传算法框架,用于高保真全球导航卫星系统欺骗仿真与数据集生成,以支持无人机系统入侵检测研究
SkySim:一个基于ROS2的仿真环境,用于基于大型语言模型的无人机蜂群自然语言控制
基于无人机集成传感器的三维重建与面向实时仿真的拓扑优化
用于灾难响应的自主无人机:具备地形感知的目标检测与载荷投送
基于无人机的空中数字孪生,用于密闭环境中的实时自动导引车交通管理
一种用于小型无人机的轻量级基于视觉的全球导航卫星系统替代方案
非洲无人机与数据学院:马拉维的人才输送管道
基于无人机的监控协调,用于自动导引车在密闭空间内的无碰撞导航
用于无人航空系统自主决策的安全边缘人工智能
高效能电动无人直升机转速与轨迹的对比及联合优化
一种轻量级传感器融合框架,用于基于低成本无人机的空气质量测绘,包括校准与不确定性评估
ReFair:推荐系统中留存去偏见的框架
真实世界中的大语言模型(LLM)往往被过度包装为令人生畏的学术产物,或者是某种神奇的生产力工具 。但这两种视角在技术面试中都毫无帮助 。面试官真正寻找的,是那些能够清晰解释分词(Tokenization)、注意力机制(Attention)、检索(Retrieval)、提示(Prompting)、微调(Fine-tuning)以及模型部署如何在生产约束下协同工作的工程师 。 今天,我将结合最新的《2026语言模型面试手册》(Language Models Interview Handbook),为大家深度拆解大模型时代的工程实践与面试核心逻辑。这不仅是一份面试指南,更是一份从算法研究走向复杂系统设计的系统工程全景图 。
大语言模型(LLM)通常被描述为令人望而生畏的研究产物,或是被神化为高效的生产力工具。然而,在真实的面试场景中,这两种定性均无助益。面试官更青睐能够解释分词(Tokenization)、注意力机制(Attention)、检索、提示工程(Prompting)、微调以及部署如何在生产约束下协同工作的候选人。本手册经修订,旨在直接满足这一需求。 全书现由 16 个章节和 151 道面试题组成,进一步强化了对底层基础、职业路线规划、架构图解、重点章节总结、代码演练以及面试定位的侧重。新增的开篇章节界定了 LLM 的定义、领域的演进趋势、学习序列的构建,以及如何在生成式人工智能(GenAI)岗位中进行自我定位。随后的章节构建了技术基石:涵盖 Token、嵌入(Embeddings)、注意力机制、预训练及模型家族。中年章节深入探讨分类、主题发现、检索、RAG 以及提示工程。后续章节则覆盖了多模态系统、嵌入优化、参数高效微调(PEFT)、训练数学逻辑、解码、模型服务(Serving)以及生产环境部署。 每个章节现均包含两项精心设计的面试辅助工具:“面试锚点(Interview Anchor)”部分阐述了优秀候选人在口头回答时应强调的核心重点;“面试速查表(INTERVIEW CHEATSHEET)”面板则将这些内容转化为简洁的论点、权衡方案(Trade-offs)及潜在风险点(Red flags),便于在技术初筛、现场面试或离线技术测验前快速复习。 本手册的目标并非单纯为了记忆,其更高层次的目标是帮助你展现出作为一名工程师的专业素养:能够基于底层原理进行推演,针对特定负载选择合适的工具,清晰地阐述失效模式(Failure modes)并论证权衡取舍。这正是“机械背诵术语”与“展现真实技术判断力”之间的本质区别。
Chapter 1
引言、基础与LLM职业路线图
Introduction, Foundations, and Career Roadmap for LLMs Chapter 2
Token、分词与上下文窗口
Tokens, Tokenization, and Context Windows Chapter 3
嵌入与语义表示
Embeddings and Semantic Representations Chapter 4
Transformer架构、注意力机制与位置推理
Transformer Architecture, Attention, and Positional Reasoning Chapter 5
预训练目标、模型家族与经典对比
Pretraining Objectives, Model Families, and Classical Comparisons Chapter 6
大语言模型分类
Classification with Large Language Models Chapter 7
主题建模、聚类与规模化主题发现
Topic Modeling, Clustering, and Theme Discovery at Scale Chapter 8
大语言模型系统的检索基础
Retrieval Foundations for Large Language Model Systems Chapter 9
生产级RAG架构与接地回答
Production RAG Architectures and Grounded Answering Chapter 10
提示、上下文学习与LLM编排
Prompting, In-Context Learning, and LLM Orchestration Chapter 11
多模态大语言模型
Multimodal Large Language Models Chapter 12
定制嵌入与检索优化
Custom Embeddings and Retrieval Optimization Chapter 13
微调、PEFT与适应策略
Fine-Tuning, PEFT, and Adaptation Strategies Chapter 14
优化与语言模型数学基础
Optimization and Math Foundations for Language Models Chapter 15
文本生成、解码与规模化服务
Text Generation, Decoding, and Serving at Scale Chapter 16
架构、扩展与实际部署
Architectures, Extensions, and Practical Deployment
任何一次成功的面试,都不是从背诵模型名称开始的。手册开篇就为我们定下了基调:LLM不是产品,它是产品中的一个引擎。
面试官真正想测试什么?
你是否能把LLM解释成一个工程系统,而不是一个孤立的“研究级”流行词? * 强者的答案模式:
定义:LLM本质上是一个预训练好的“下一个词预测器”。 1. 系统化:它的价值,体现在被嵌入到检索(Retrieval)、工具调用(Tool-use)、评估(Evaluation)和交付(Delivery) 这个更大的工作流中。 1. 权衡:所有的技术选择,都是灵活性、成本与风险之间的权衡。 * 本章的灵魂:它为全书铺设了分层学习路线图:从文本基础与模型机制,到检索如何改变上下文质量,再到适应与部署。这不仅是学习顺序,也是你在简历和面试中展示自己时,最清晰的“叙事结构”。
“Tokenization is where human language becomes model compute.” —— 手册第二章金句 * Q1: 什么是Token?它为什么是LLM中真正的计算单元?
核心洞察:Token是连接人类文本和机器计算的桥梁。它决定了成本(API计费)、延迟(序列长度影响速度)、上下文窗口(能放多少信息) 和检索粒度(如何切分文档)。 * 关键对比:
BPE(Byte-Pair Encoding):通过合并高频子词,解决了“未登录词”问题,是GPT系列的基础。 * SentencePiece:不依赖空格分词的框架,对多语言和代码友好,是LLaMA等模型的选择。 * 工程实践:“预算思维”。一个合格的工程师会为系统指令、工具、输出长度预留足够的token空间,而不是天真地认为“长上下文”意味着可以无限往里塞内容。
如果说Token是模型读到的“字母”,那么Embedding就是模型理解的“意义”。 * 核心问题:为什么Embedding让语义搜索成为可能?
答案:它将离散的文本映射到连续的向量空间。在这个空间里,“医生薪资”和“医师待遇”这两个在字面上毫无重叠的词,会因为语义相似而成为“邻居”。 * 关键概念辨析:
Bi-Encoder:分别对Query和Document编码,速度快,可预计算索引。是召回阶段的主力。 * Cross-Encoder:将Query和Document拼接起来一起编码,交互更充分,准确性更高。是精排阶段的不二选择。
Bi-Encoder vs. Cross-Encoder: * Hubness & Anisotropy:向量空间中的“马太效应”。少数向量会成为很多查询的“万金油”邻居,拉低检索质量。这提示我们,需要对Embedding空间进行校准,而非盲目相信距离。
这是面试的必考题,也是最容易暴露“背书痕迹”的地方。 * Q22: 用简单的话解释什么是自注意力(Self-Attention)?
强者的比喻:它就像一个信息路由和聚合系统。每个词都向所有词(包括自己)发出一个“Query”,问:“你们中谁对我理解当前语境最重要?” 其他词用“Key”来响应。模型计算出权重后,再把所有词对应的“Value”(即它们携带的信息)按权重混合,最终每个词都获得了一个融合了全句信息的、上下文感知的新表达。 * Q24: 为什么需要多头注意力(Multi-Head Attention)?
答案:一个“头”可能专注于语法结构,另一个头可能专注于指代消解(如“它”指的是“狗”),另一个头可能专注于长距离依赖。多头的本质是让模型从多个维度同时理解文本。 * 核心工程点:KV Cache。在生成时,模型需要反复关注之前的所有token。KV Cache把之前计算好的Key和Value缓存起来,避免了重复计算,是生成加速的最关键优化。
模型家族的选择,由它的训练目标决定。 * Q32: 自回归模型(Autoregressive)和掩码语言模型(Masked LM)有何不同?
自回归模型(如GPT):从左到右,预测下一个词。天生擅长生成和续写。 * 掩码模型(如BERT):随机遮挡一些词,让模型从左右上下文去“填空”。天生擅长理解、分类和表征学习。 * Q38: 什么是基础模型(Foundation Model)?
答案:它是一类通用的、在广泛数据上预训练的模型。它不再是只做一件事的“窄模型”,而是可以被“微调”、“提示”、“检索”等方式适配到无数下游任务的通用底座。
分类是LLM最被低估的能力之一,但选择策略比模型本身更重要。 * Q42: 何时用提示(Prompting),何时用微调(Fine-tuning)?
提示(Prompting):当标签变化快、数据少、或需要模型同时输出理由时。它的优势是灵活性。 * 微调(Fine-tuning):当标签稳定、数据量大、对延迟敏感时。它的优势是专业化和成本控制。 * 核心提醒:“Human-in-the-loop”。当一个分类决策涉及高风险(如医疗、金融)或模型信心不足时,请引入人工审核。这并非系统弱点,而是成熟的架构设计。
当我们需要从海量无标签数据中发现未知的结构时,主题建模就登场了。 * Q51: 主题建模和分类有何不同?
分类是监督学习,我们有已知的标签。 * 主题建模是无监督学习,我们从数据中发现隐藏的主题。 * 现代实践:Embedding + Clustering + LLM。
Embedding:将每篇文档转为向量。 1. Clustering:用K-means或HDBSCAN等算法,在向量空间中寻找自然聚集的文档群。 1. LLM:让大模型分析每个群中的代表性文档,并为这个主题“起一个名字”,如“登录失败问题”、“账单支付纠纷”。
这是全书最核心的章节之一,定义了现代LLM应用的“记忆”模式。 * Q61: 什么是RAG?
定义:检索增强生成。在模型生成答案前,先从一个外部知识库(如向量数据库)中检索相关信息,并将其作为“上下文”提供给模型。 * 目标:解决模型“闭卷”考试下的幻觉问题,让答案可溯源、可更新。 * Q71: Naive RAG 和 Production RAG 的区别?
Naive RAG:检索->拼接->生成。 * Production RAG:Naive RAG + 查询改写(Query Rewriting) + 元数据过滤(Metadata Filters) + 重排序(Reranking) + 引用溯源(Citation) + 缓存(Caching) + 权限控制(Permissions) + 拒绝回答策略(Abstention)。
提示工程,本质是“接口设计”。 * Q81: 系统消息(System)、用户消息(User)、工具消息(Tool)的角色?
System:定义角色、政策、输出格式。如:“你是一个专业的客服助手,总是用礼貌且简洁的语言回答,只引用提供的文档内容。” * User:传递用户的具体需求。 * Tool:传递来自外部系统(如API、数据库)的结构化证据。 * Q88: 什么是提示注入(Prompt Injection)?
定义:恶意用户或外部内容,通过巧妙构造的文本,让模型忽略系统预设的指令。 * 防御:架构防御。将用户输入和系统指令视为不同信任域的文本,通过工具调用、沙箱等方式进行隔离,而非仅靠提示词中的“请忽略以下内容”。
真正的“世界模型”需要理解多种模态。 * Q92: 常见的图文多模态架构?
模式:视觉编码器 + 投影器 + 语言模型。视觉编码器(如CLIP的Vision Transformer)将图像转为向量,投影器将其“翻译”成语言模型能理解的token,然后语言模型在文本和图像token的混合序列上进行生成。 * Q94: 什么是视觉定位(Visual Grounding)?
核心:确保模型“所言”与“所见”一致。一个“接地”的多模态模型在看到一张长颈鹿的图片时,说“这是一只长颈鹿”,而不是仅仅从文本概率中猜出“动物园”。
当通用Embedding在垂直领域“失灵”时,需要定制。 * Q103: 为什么训练检索Embedding时,需要“难负例”(Hard Negatives)?
比喻:教孩子认识“猫”和“狗”,光拿“猫”和“苹果”来对比,孩子很容易区分。但如果拿“老虎”或“猞猁”来对比,孩子才能真正掌握“猫”的本质特征。难负例就是那些和正例(相关文档)非常相似,但实际不相关的文档。它迫使模型学习更精细的边界。 * 优化阶梯:先优化数据清洗、分块策略,再尝试重排序,最后才考虑训练自定义Embedding。这是工程原则。
如何将通用模型训练成“专家”。 * Q112: LoRA 和 QLoRA 的区别?
LoRA(Low-Rank Adaptation):在冻结的模型权重旁边,插入一个极小的、可训练的低秩矩阵。它只更新这个“小插件”,实现微调。 * QLoRA:在LoRA的基础上,进一步将冻结的基座模型量化到4-bit。这使得在单张消费级显卡上,也能微调百亿、千亿参数级别的模型。 * Q117: 什么是灾难性遗忘(Catastrophic Forgetting)?
定义:模型在过度学习新任务时,“忘记”了之前学到的、对通用任务有帮助的能力。 * 缓解:在微调数据中混合旧数据、使用LoRA这类参数高效方法、早停(Early Stopping)。
面试官常通过数学问题来考察你的深度,避免你成为“调包侠”。 * Q124: 为什么交叉熵(Cross-Entropy)是语言模型的标准损失函数?
答案:它衡量的是模型预测的概率分布和真实标签分布(通常是一个独热向量)之间的差距。它天然适配Softmax输出,梯度良好,且最小化交叉熵等价于最大化似然(MLE)。 * Q131: 残差连接和层归一化如何帮助解决梯度消失?
残差连接:为梯度提供了“高速公路”,让信号可以直接传回前面的层。 * 层归一化:稳定了每一层的激活值分布,让优化过程更平滑,避免参数更新幅度过大或过小。
让模型“开口说话”的艺术。 * Q132: 温度(Temperature)、Top-k、Top-p如何改变输出?
温度:控制概率分布的“尖锐”程度。温度低 → 高概率词更突出 → 输出更确定;温度高 → 概率分布更平坦 → 输出更多样。 * Top-p(核采样):从累积概率超过p的token集合中采样。它能动态地根据分布形态,决定候选词的数量,是目前最受欢迎的采样策略。 * Q141: 在系统设计题中,如何描述一个可扩展的LLM生成服务?
答案:一个生产级的服务,包含请求路由、身份验证、提示组装、检索/工具调用、模型推理(带KV Cache)、流式传输、安全审查、日志监控、缓存、AB测试和回滚机制。
超越模型本身,思考系统架构和治理。 * Q142: 什么是混合专家模型(MoE)?
定义:用多个“专家”子网络替代单一的稠密前馈网络,并通过一个“门控网络”决定每个token由哪些专家处理。它实现了**“参数规模巨大,但计算成本可控”**的稀疏激活。 * Q150: 为什么LLM部署中,可解释性和隐私很难?
可解释性难:模型是“黑箱”,我们难以知道是“哪条路径”导致了某个输出。 * 隐私难:提示词可能包含用户敏感数据,检索过程可能涉及机密文档,而模型有“记忆”和“泄露”的风险。 * 对策:访问控制、数据最小化、严格的日志与审计是架构设计的必要组成部分,而非后期补救。
回到文章开头的问题:面试官到底在寻找什么? 他们寻找的不是一个背诵术语的机器,而是一个能回答以下问题的工程师: * “这个系统上线后,在什么情况下会崩溃?” * “你是如何权衡成本与延迟的?” * “当用户数据分布发生漂移时,你的系统如何发现和应对?”
这本《Language Models Interview Handbook》的价值,正在于此。它没有止步于提供答案,而是通过150多个问题、系统的目录结构、以及贯穿始终的“Interview Anchor”和“Cheatsheet”,试图为我们构建一套完整的、自洽的、从第一性原理出发的工程判断框架。 希望这篇基于其目录的深度解读,能帮助你更好地驾驭这本“红宝书”,在真实的面试和工程实战中,展现出你真正的价值。那才是技术判断力的终极体现。
传统的人工智能(AI)通常在非协作式场景下执行任务,即单个 AI 根据用户定义的输入进行决策。与之相对,现代 AI 愈发频繁地部署于协作式场景中,由 AI 智能体与人类在多轮交互中为了共同目标协同工作。这种协作式 AI 范式不仅限于构建旨在匹配甚至超越人类能力的系统,更旨在激发出双方孤立存在时无法实现的创造力与智能。
本论文研究以下课题:如何构建能够与人类用户高效协作的高性能智能体?与非协作式智能体相比,协作式 AI 智能体需要具备主动行为,以理解用户意图、推断用户查询及其歧义性,并提供有助于用户实现目标的辅助。我们分析了智能体在协作场景中的常见失效模式,建立了其与人类协作社会科学研究之间的联系,更重要的是,明确了解决协作任务所需的行为层次与能力维度。
在上述基础上,我们近期的工作提出了一个统一框架,旨在将非协作式 AI 转化为协作式智能体。我们提出了一种“多轮感知目标函数”(multiturn-aware objective),该目标优先考虑多轮协作中的长期结果,而非单轮任务的完成度。实验证明,在多种基准测试中,利用该目标训练的协作式智能体表现显著优于非协作式训练的智能体。更重要的是,用户反馈显示,与协作式智能体共同工作时的交互过程更高效、更具参与感且更富有创造性。
此外,本论文进一步探讨了如何在多轮感知目标带来的行为转变之外,构建更强大、更智能的协作式智能体。研究发现,智能体往往难以从经验中学习:一个已执行过多次任务的智能体,在面对类似任务时仍可能犯同样的错误。为解决这些局限性,我们开辟了一个全新的研究方向,使智能体系统能够从过往失败中学习并适应更困难的任务。其核心在于令智能体系统进行“对比推理”(contrastive reasoning),即识别高评分与低评分协作会话之间的差距,从而识别并有效应对当前的局限。我们还揭示了扩展智能体系统规模的益处,并开发了一个优化框架,使个体智能体与共同目标保持对齐。这些工作共同提升了系统层面的能力,强化了与用户之间的多轮协作。
最后,我们总结了协作式 AI 领域尚存的开放性问题,并倡导推进协作式智能体的民主化——使其不仅受人类管理,更能与人类共同创造更大的价值。
本报告为美国海军研究生院发布的技术报告,旨在研究利用人工智能(AI)框架优化高功率微波(HPM)系统对抗自主无人机蜂群的战术。
一、 研究背景与核心目标
二、 三个核心子项目的研究内容与发现
三、 总结
报告总结在实现项目总体目标(即开发能够生成分布式NN控制器以高效击败攻击蜂群的RL框架)方面取得了重要进展:
美国小型无人机系统工业基础存在脆弱性,其原因在于严重依赖外国组件,且国内制造能力相较于近邻竞争者较为有限。未来冲突要求无人机能够快速大规模生产;必须确定最优平台投资方向,并发展满足作战节奏需求的批量生产能力。乌克兰从防御性无人机作战向进攻性作战的转型,证明了国内制造的战略重要性——乌克兰部队通过本地生产无人机而非依赖进口成品平台,维持了供应的连续性。本研究采用定性与分析方法,包括访谈、实地观察及相关文献分析。研究审视了当前“蓝色”小型无人机系统平台的构成与供应链来源,旨在为决策者提供强化无人机制造能力的见解。理解这些组件依赖关系,对于发展能够支持未来军事行动的、具备韧性的小型无人机系统工业基础至关重要。在整个研究过程中,一个明显的结论是,在对抗性环境中运作时,关键核心组件可能因地理依赖性而成为严重阻碍。最终,研究建议指出,有必要激励工业界采取保障性措施,以使国防部门能够着手建立无人机储备。
非合作空中目标,特别是低空慢速小雷达截面积无人机的扩散,对空域安全构成了复杂挑战。非合作空中目标的探测与识别是一个研究密集的领域。本文旨在对使用机器学习算法进行无人机/无人驾驶航空器、固定翼飞机及其他非合作空中目标的探测与分类,进行一次结构化的综述。本文对184项近期研究(2019-2025年)进行了系统性综述,涵盖五种关键感知模态:雷达(雷达截面积、微多普勒、高分辨率距离像)、无源感知(5G/Wi-Fi/射频)、声学感知、计算机视觉以及多模态感知。尽管单个感知模态已被广泛研究,但现有综述往往缺乏对多模态集成的整体性作战适用性评估。此外,本综述工作引入了一个新颖的作战适用性框架,该框架针对关键的部署约束(包括探测距离、视距要求、环境鲁棒性)来评估每种模态。再者,作者批判性地分析了从经典统计方法和过时的深度学习架构向先进深度学习架构的过渡,特别强调了视觉变换器以及集成感知与通信等利基技术的出现。最后,本综述指出了基于人工智能的非合作目标识别研究中持续存在的差距,并为未来多模态机器学习和传感器融合技术路径的研究提出了路线图。此外,本综述工作将为进一步加强航空航天、人员安全和重要设施安保的研究工作指引方向。
本文侧重于对用于识别非合作目标的感知方法与人工智能技术提供完整的最新综述。本综述论文的突出方面如下:
• 本综述审视了用于获取空中目标特征的各种感知方法,例如雷达、射频特征、计算机视觉、声学传感器及其组合在非合作目标识别中的应用。它对近期研究(2019-2024年)进行了结构化综述,涵盖了上述模态与前沿深度学习技术的集成。
• 本综述重点介绍了非合作目标识别中不同的特征提取(雷达截面积、微多普勒、高分辨率距离像、运动学)和数据预处理技术,并展示了不同机器学习算法在目标识别中的有效性。
• 引入了一个新颖的作战适用性框架,评估了每种传感器类型在探测距离、环境适应性和计算成本方面的实际权衡。
• 评估了新兴人工智能架构,特别是视觉变换器和多模态机器学习技术路径,在低信噪比环境下的性能。它概述了当前目标感知与分类方法的局限性,并提出了该领域未来的研究方向,包括用于分布式探测的集成感知与通信以及用于数据受限分类的物理信息神经网络。
• 汇总并分类了重要的开源数据集,以支持利用人工智能进行非合作目标识别的进一步发展。
为指导此项系统性综述,作者提出了三个主要研究问题:
• 研究问题1:当前用于非合作目标识别的单一模态感知(雷达、射频、声学、视觉)的作战边界和性能局限是什么。
• 研究问题2:新兴人工智能架构,如视觉变换器和物理信息神经网络,如何应对低信噪比和数据稀缺性等持续存在的挑战。
• 研究问题3:在实时反无人航空器系统应用中,多模态传感器融合存在哪些架构性权衡(延迟与精度)。
本文其余部分结构如下:第2节解释了用于系统性综述的检索策略,第3至6节概述了不同的感知方法及其预处理、目标探测与分类技术。第7节简要介绍了用于目标识别的不同感知模态融合。第8节呈现了对感知方法的评估,而第9节则提出了研究挑战与未来工作方向。最后,第10节提供总结性评述。
人工智能与机器学习领域近期的突破性进展,已改变了商业市场,并显示出颠覆未来战场的潜力。然而,我们尚未观察到人工智能/机器学习在国防市场取得如同在商业市场那般显著程度的成功。引入“错误采办法”这一概念,其由研发工作的目的、范围和假设所界定。简而言之,许多概念开发者并未充分理解新的人工智能/机器学习技术,未能认识到其采办法各要素(目的、范围和假设)正相互掣肘,这严重阻碍了后续的研发。本文列举了限制军事领域利用人工智能/机器学习的错误采办法案例。我们为人工智能赋能项目的要求工程研究提出了四项纠正原则:(1)通过训练员与操控员驯服“野性AI”;(2)警惕“AI末日”(哪怕只是一点点);(3)避免“AI脑叶切断术”;(4)拥抱主要回报——速度。最后,本文认为,作战研究界最有条件通过教育、聚焦的方案分析以及对未来作战研究的建议,来帮助应用这四项原则并纠正采办法。
作战研究(OR)是实现战场人工智能的关键
人们可能会将人工智能/机器学习在军事系统应用上的滞后,归因于现代人工智能的相对新颖性,以及国防部相较于商业市场的缓慢起步。这固然属实,但对于发展颠覆性的人工智能/机器学习赋能军事系统而言,一个更大的制约因素是当前许多(即便不是大多数)研发工作所采用的错误采办法。本文将“错误采办法”概念作为军事人工智能/机器学习研发工作的项目章程引入。我们将错误采办法定义为一项其既定目的、范围和假设无法同时满足,但经过细微修改后即可合理满足的研发工作。换言之,该项目的章程至少存在一项内部冲突,如下列假设性案例所示:
一个错误的采办法注定了研发工作只能取得有限的成功,无论其其他方面多么出色。较旧的技术也存在此现象,但对于人工智能/机器学习等新技术而言,这尤为普遍。这部分是由于缺乏对哪些战场任务适合应用人工智能/机器学习,以及对新技术的性能和局限性的了解。那些熟悉战场的人往往不了解人工智能/机器学习,而那些了解人工智能/机器学习的人又往往不熟悉战场。这就导致了章程拙劣的研发工作。作战研究界是解决这一普遍问题的关键,它通过在源头——即概念与要求制定阶段——纠正此类问题。
当前有缺陷的人工智能/机器学习采办法存在几个常见的陷阱。为协助作战研究专业人员及更广泛的采办界,本文将常见错误描述为纠正采办法的四项原则:
支持人工智能/机器学习采办工作的作战研究分析人员,应将这四项原则融入传统技术和方法中,以向概念和要求开发者传达合理的期望。总之,这四项原则可作为一份直观的检查清单,供精通人工智能/机器学习的作战研究分析人员使用,以确保概念、目的、范围和要求内部协调一致。然而,作战研究分析人员也应同时提高自身对人工智能/机器学习技术的普遍理解,并避免盲目、不加思考地遵循这些简化的经验法则。对国防技术信息中心门户网站的粗略检索表明,关于战场人工智能具体性能与局限性的已发表研究存在诸多空白。在更详细地阐述这些原则之后,本文将提出一系列研究课题,以帮助引导作战研究界更好地理解人工智能/机器学习在未来采办工作中的定位。
2026年初席卷全网的“养虾”,并非一次简单的软件部署热潮,而是标志着Agent真正迈入生产力变革阶段。过去大模型受限于对话框形态,难以充分释放价值OpenClaw则突破该交互边界,成为可接管系统底层权限、跨应用自主执行任务的“数字员工”
本文研究了战斗机与更廉价、能力较低的无人机之间在质量与数量上的权衡。前提是,在未来空战中,空军将部署一定数量的昂贵战斗机(很可能为有人驾驶)与低成本无人机协同作战。空军应如何确定高性能、高成本飞机与低成本、低性能无人机之间的平衡?识别了相关利益方及其核心关切价值,以及应驱动此决策的若干作战任务。阐述了影响力量权衡的主要因素,并基于战斗机生存性建立了一个因素关系分析模型来检验这种权衡。分析了无人机的特性及其对采购和运用成本的影响。基于无人机特性的聚类分析,提出了三种基于集合的设计方案。通过仿真及对各种参数的敏感性分析,展示了这三种不同方案各自的影响。结论总结了这三类无人机的特点、优势和挑战。
军事领导者必须在国家资源有限的情况下,就武器系统的质量与数量做出决策。许多研究者认为,军方存在偏向过高质量而以牺牲武器系统数量为代价的倾向。随着飞行无人机使用的增加,特别是在乌克兰与俄罗斯的战争中,有人提出空军可用较廉价的无人机来补充昂贵的战斗机。未来的空军可能部署一定数量的昂贵(可能为有人驾驶)战斗机,并搭配一个低成本无人机编队协同作战。美国空军已在允许性环境中(即缺乏密集防空系统的环境)运用无人机。那么,空军应如何确定用于空战的、数量有限的高成本战斗机与低成本无人机之间的平衡?
空军领导者面临诸多疑问:某种特定的战斗机/无人机组合是否有效?其成本是多少?战斗机和无人机的适当比例应是多少?这个问题可被理解为一场质量与数量的讨论,需要在高质量、昂贵的系统(此指战斗机)与成本较低、效能较低的系统(如无人机)之间做出选择。在思考空军应如何确定高质量战斗机与较低质量无人机的数量时,考虑了主要动机和辅助动机。很快意识到真正的问题要复杂得多!何种任务最适合由这种组合结构来执行?无人机需要具备哪些必要特性?无人机是受控的还是自主的?一个类似的历史问题曾在美国空军无法负担足够数量的F-15时出现,他们当时提议用低成本的F-16来补充。随后的“高低混合”研究确定了这种平衡。本文首先界定问题,识别主要因素。在随后的部分,建立一个战斗机和无人机的分析模型以检验其权衡关系。根据无人机的特性估算其成本。运用基于集合的设计理念,确定了三类无人机进行研究。在得出结论前,通过仿真对这三类无人机进行了研究。
表4. 无人机及无人机等效系统(战斗机与巡航导弹)特性。
美国认为潜在对手正在营造一个对抗性日益增强的反介入/区域拒止环境,这对美国在陆地、海洋、空中和空间的战场主导地位构成严峻挑战。必须开发并大量列装高超音速打击武器,将其作为一体化综合分层击败战略的组成部分,该战略通过整合动能与非动能效应,在敌方反介入/区域拒止能力的发射前和发射后阶段实现击败,以摧毁其脆弱的杀伤链环节。美国的高超音速打击系统能够在相关时间尺度内,从对手防御范围之外投送及时、具备生存能力的发射前动能效应,这对于确保在未来高度对抗战场上的作战优势至关重要。同样重要的是,必须积极寻求防御对手的高超音速打击系统,以应对此类系统日益增多的部署。为应对这些高超音速领域的迫切需求,必须积极推进,并提供资金支持:稳健采购当前一代高超音速武器和反高超音速拦截弹;对这些系统进行批次升级,以部署先进能力并显著提高可负担性;加速开发下一代系统以实现可负担的规模;推动技术成熟,以提升高超音速打击武器、高超音速拦截弹和未来可重复使用高超音速飞机的能力和可负担性;实施关键的人才计划;扩展国家的测试基础设施及建模与仿真能力,以加速先进概念开发;构建强大的远程杀伤网以实现高超音速能力的有效运用;以及与盟友和伙伴合作,共同生产这些武器和拦截弹,并将其整合到全联盟的防御战略和计划中。除了弥补高超音速导弹差距,本报告还建议专门投入力量发展可重复使用高超音速飞机。这些系统为在高度对抗环境中实现持久的情报、监视和侦察以及快速响应打击任务提供了变革性能力,确保美国在下一代战争中保持持久领先地位。
当代地缘政治冲突的格局已发生根本性转变,从20世纪传统的消耗战模式转向以数据为中心的高速范式。这一演变在2025年至2026年持续的伊朗战场及更广泛的中东冲突中最为显著,人工智能的整合已超越实验阶段,进入全面作战部署。如“梅文”项目(Project Maven)等系统的使用以及大型语言模型与目标瞄准周期的整合,被许多观察家归类为战争的“第三次革命”。这一转变的特点不仅在于引入新硬件,更在于软件实现的“决策压缩”——这一现象将复杂军事规划所需的时间从数周压缩至数秒。
2026年涉及伊朗的冲突已成为人工智能增强动能作战的明确试验场。该战场的军事行动以目标识别的空前规模和速度为特征,这是商业技术与军事基础设施融合的结果。此能力的主要驱动力是“梅文智能系统”,该系统集成先进的人工智能模型,以在广阔的地理区域内识别目标并确定其优先次序。
目标获取速度与决策压缩
对伊朗目标空中打击战役初始齐射的规模得以实现,得益于帕兰提尔公司的“梅文”框架与Anthropic公司的Claude AI的结合。这些系统使得美国中央司令部能够在行动开始后的24小时内识别并打击超过1000个目标。这代表了军事效率的飞跃;在以往的冲突中,识别类似数量的已验证目标需要数千名情报官员数周的人工分析。
“决策压缩”指的是复杂打击行动所需规划时间的急剧缩短。人工智能工具融合无人机影像、通信拦截信号和人力情报的速度远超人类能力。学者指出,这使得“刺杀式”打击能够与瘫痪政权反应能力同时进行,实质上在以往授权单一任务所需的时间内完成相当于整个战役的目标选定工作。
精确斩首与高价值目标追踪
伊朗战场人工智能驱动战略的一个核心组成部分是聚焦“高价值目标”。据报道,以色列情报部门利用基于人工智能的算法分析了对伊朗最高领袖阿里·哈梅内伊多年的侦察资料。通过处理诸如执勤日程、卫兵换岗和通勤路线等细节,该系统能够高精度预测其行动。据报道,2026年2月28日,以色列导弹在这些预测模型的协助下发起打击。
此外,在“边缘”——即直接在武器系统上——实施战术人工智能,重新定义了城市作战。在2026年3月11日的一次行动中,以色列空军对德黑兰的一个巴斯基民兵检查站实施了精确的无人机打击。此次行动使用了前所未有的“母发射器”来投放搭载人工智能数据库的无人机。这些无人机在攻击前,在地面进行实时面部识别和行为模式分析,以验证武装分子的身份。
防御整合与传感器融合
人工智能在防御作战中的效能同样显著。随着伊朗及其代理人发动报复性导弹和火箭弹齐射,以色列和美国的防空系统采用“传感器融合”来应对饱和攻击。人工智能系统在毫秒内处理来自各种雷达和传感器的输入数据,以确定最优拦截弹发射序列,并根据弹道预测的落点区域对威胁进行分级处理。这使得防空系统能够在来袭导弹通常还未进入领空时就进行拦截,并提供实时数据以便向平民发布早期预警。
“从情报到行动”的流水线建立在一个复杂的技术架构之上,该架构同时利用了云端处理和边缘计算。从人工分析到自动化识别的转变,涉及多个不同的数据交叉比对和模型推理阶段。
发现与锁定目标:交叉比对机制
人工智能用于在数秒内交叉比对来自不同传感器的数百万个数据点。“梅文”项目利用一个“本体层”来标准化异构数据——这意味着它将来自红外传感器、合成孔径雷达、IP地址和人力情报的信息翻译成一种共同语言,以便进行融合。
该系统使军方能够从数据中间商、军用无人机和社交媒体收集的海量信息中,筛选出感兴趣的人员和物体。例如,“梅文”的物体识别系统是在包含至少400万张军事物体(如军舰和坦克)图像的数据集上进行训练的,这些图像由人类分析师标注,以确保机器学习模型能够从背景噪声中区分出真实目标。
跟踪与预测:时序上下文的作用
目标跟踪超越了简单的探测,它确保在一个帧序列中持续识别移动目标。现代自主无人机系统将其组织为一个多模块架构,其中感知、定位和规划模块相互作用。
战斗损伤评估与再打击逻辑
在实时战争中,人工智能在打击后立即分析战斗损伤。通过将打击前的图像与打击后的传感器数据(包括红外和雷达)进行对比,系统确定目标是否已被摧毁或是否需要再次打击。这个实时闭环减少了弹药浪费,并确保在敌军能够重新部署之前达成任务目标。
尽管面临美欧制裁,伊朗已发展出显著的人工智能辅助能力,其重点常置于非对称和网络中心领域,以抗衡西方技术优势。
高超音速修正与抗干扰能力
据报道,伊朗的“法塔赫”高超音速导弹配备了人工智能系统,使其能够在接近5马赫的飞行速度下,在飞行途中自我修正弹道。这些系统使导弹能够通过执行无规则机动来超越传统拦截系统的计算速度,从而突破传统防空体系。此外,被捕获的伊朗无人机被发现搭载了用于自主导航的复杂机载计算系统,使其即便在强全球定位系统干扰条件下也能继续执行任务。
非对称网络战与软目标攻击
2025年的冲突在网络战术上呈现出显著分歧。尽管以色列和美国专注于诸如伊朗国家塞帕银行及核设施等“硬目标”,但与伊朗有关的组织则以“软性”民用基础设施为目标。
大规模监控:伊朗操作人员大规模入侵以色列境内不安全的家用安防摄像头,以监控城市区域并对己方导弹打击进行实时战斗损伤评估。
鱼叉式网络钓鱼:“有学问的蝎狮”等组织利用人工智能增强的钓鱼攻击活动,以以色列学者和政府官员为目标。这些人工智能生成的信息语法正确、格式正式,绕过了传统的安全警报。
经济扰乱:伊朗的“影子银行”网络利用人工智能和区块链分析,在碎片化的国际环境中管理石油出口,估计在2025年其价值高达110亿美元。
工业人工智能与智慧城市基础设施
伊朗正推动“智慧城市”发展,如布什尔智慧城市项目,该项目集成人工智能用于交通管理和公共安全。在研发投入和政府建立基于图形处理器数据中心以承载国家人工智能系统的推动下,预计到2032年,伊朗人工智能训练数据集市场将显著增长,达到约3227万美元。
乌克兰战争已成为一个“活的实验室”,其中出现了两种截然不同的智能战争模式:美国主导的“信息优势”模式和俄罗斯的“实用主义碎片化”模式。
美国/乌克兰风格:信息主导
以“梅文”项目和帕兰提尔公司在乌克兰的集成为代表的美国模式,专注于创建“战场的数字模型”。该模式优先将所有可用传感器数据整合为单一、统一的作战图景。
联合全域聚焦:目标是建立一个全面的架构,协调跨陆、海、空、网络和太空的情报。
商业-军事融合:美国利用私营科技公司(如帕兰提尔、安杜里尔)的敏捷性,构建可基于前线反馈每日更新的软件。
决策支持:人工智能被视为“赋能者”而非决策者。人类操作员保留致命决策的控制权,利用人工智能从信号中过滤“噪声”。
俄罗斯风格:战术实用主义与大规模消耗
俄罗斯已放弃大规模、统一的现代化工作——这些工作在俄乌全面战争早期被证明僵化且脆弱——转而采用碎片化但高效的战术适应。
任务专用软件:俄罗斯优先开发旨在解决即时战场问题的战术软件,例如将无人机直接连接到炮兵单位(如“Svod”综合体)。
杀伤链加速:俄罗斯“卢比孔”部队已标准化利用无人机反馈回路提升打击效率的流程,将目标识别到打击的时间从数小时缩短至数分钟。
电子战优势:俄罗斯在人工智能与电子战整合方面领先,利用“智能欺骗”并发送损坏的数据包以使接收器逻辑过载。
光纤控制无人机:为对抗西式干扰,俄罗斯率先研发通过光纤电缆控制的无人机,使其免受电磁干扰,并为目标瞄准提供高分辨率图像。
乌克兰“实验室”与世界的观察
乌克兰已不仅仅是一个战场。它已成为下一代军用人工智能的实时训练环境。双方都在利用这场战争不仅是为了摧毁目标,更是为了完善将塑造未来冲突的算法。据报道,乌克兰国防部已汇编了一个庞大的“通用军事数据集”,该数据集由数百万张带标注的战斗飞行图像构建,并与合作伙伴共享以帮助训练能力更强的神经网络。与此同时,俄罗斯通过借鉴中国两用技术和伊朗无人机设计,将战场反馈融入更快的改进周期,以持续进行调整。这对北约而言尤为重要的是,并非仅仅因为对手在创新,而是因为他们正在从西方战术、反制措施和行动特征中实时学习。每一次拦截、每一次干扰尝试、每一次防御调整,都可能成为对方新的训练数据。
战争的未来正朝着一个由速度、自主性以及对人类决策日益增加的压力所定义的模式发展。军事系统被期望以机器速度同时追踪、优先排序并攻击的目标不再是几十个,而是数百甚至数千个。这种作战节奏依赖于多源情报融合,即人力情报、信号情报、地理空间输入和传感器数据流被自动关联成一个单一的目标瞄准图景。然而,这些系统变得越快,进行有意义的人工审查的窗口就越窄。在实践中,这造成了“认知卸载”的危险,即指挥官不再进行审慎判断,而仅仅是在巨大的时间压力下批准由不透明系统生成的建议。
从无人机到自主士兵的扩展
下一步不仅仅是更好的无人机,而是地面自主系统。国防开发商已经在研发用于战斗支援和高风险任务的人形及半人形机器人平台。诸如Foundation公司的“幻影MK-1”等系统,被设计用于在传统部队难以进入、过于危险、过于狭窄或受到污染的空间中操作,包括地堡、隧道和化学污染区域。它们也可能在无人机易受攻击或无效的地区执行补给任务。此类系统的支持者认为,机器人不会恐慌、疲劳或犹豫,其使用可以在恶劣条件下维持作战的同时减少己方伤亡。但使其具有吸引力的逻辑同样也使其具有不稳定性。委托给自主平台的功能越多,战争就越从依赖人类耐力转向依赖系统性能。
Anthropic、五角大楼与人工智能时代的内部分歧
关于军事人工智能的斗争不仅是技术性的,也是意识形态性的。商业人工智能开发商与国防机构之间在谁控制这些系统、其使用限度以及应保留何种限制方面,出现了日益加深的分歧。涉及Anthropic公司与五角大楼的争议清晰地体现了这种紧张关系。Anthropic反对将其Claude模型用于大规模国内监控和完全自主的致命应用,划定了其认为不可妥协的界限。然而,对于国防规划者而言,这一立场引发了不同的担忧。如果一家私营公司能够在活跃的军事行动期间限制、修改或禁用关键模型,那么该公司本身就成为一个战略漏洞。从五角大楼的角度看,战时的可靠性不能依赖于商业供应商不断变化的道德标准或内部治理。与此同时,军方官员也对相反的问题表示担忧:由帕兰提尔或安杜里尔等公司提供的高性能系统可能作为“黑箱”运行,使得难以验证决策如何做出、谁可以访问敏感数据或架构内部是否存在隐藏的依赖关系。
闪击战与算法不稳定性
随着军事人工智能加速作战节奏,它也引入了一类新的战略危险。风险不再局限于政治领导人的蓄意升级。现在还包括了由系统间自动化交互驱动的、快速且非预期的升级可能性,其速度之快使人类无法控制。这就是“闪击战”的逻辑,即军事领域的金融“闪崩”。如果敌对系统被设定为以机器速度进行探测、分类、报复和反报复,那么一个传感器异常、欺骗信号或错误分类的物体,就可能在任何指挥官有时间中断该序列之前,引发一连串的升级。危险不仅在于恶意,更在于速度。一旦循环开始,人类的权威可能来得太迟而无法发挥作用。
向算法作战的不可逆转转变
在乌克兰、伊朗战场和其他新兴冲突地区日益清晰的是,人工智能不再是战争边缘的辅助技术,它正在成为现代战斗力的核心运作逻辑。最深刻的断裂是从“相称性逻辑”向“效率逻辑”的转变。人工智能使得以人类参谋无法手动管理的规模生成、验证和分配目标成为可能,而一旦一方获得这种优势,另一方就被迫跟进。人类监督在纸面上仍然存在,但在实际作战条件下,它有可能变得流于形式而非实质。
乌克兰战争已经表明,低成本、人工智能辅助、可消耗的大规模装备,可以挑战那些曾被视为决定性力量的昂贵平台的战场主导地位。面对大量廉价、网络化、自适应的攻击系统,坦克、舰船和其他精密系统正变得越来越脆弱。这也指向了一种不同的威慑模式。未来的安全不仅将取决于核武库或传统部队规模,还将取决于通过自主系统生成大规模力量的能力、保护作战网络免受网络和电子干扰的能力,以及在压力下保持决策管道正常运行的能力。
这就是为什么治理不再是一个次要问题。随着人工智能在指挥、控制、目标瞄准和战场协调中承担更大的角色,意外升级、未经授权的行为和法律模糊性的可能性变得更加难以忽视。国际规则、可审计的系统日志、更清晰的责任结构和可执行的约束正在成为作战的必要条件,而非学术理想。在一个战争速度可以超越人类思维的时代,缺乏此类机制可能被证明与武器本身一样危险。
2026年的伊朗战役似乎证实了一个严峻的结论:在二十一世纪的战争中,拥有更优算法流水线、能够比对手更快更可靠地发现、锁定并终结目标的一方,将日益塑造战场并决定交战规则。
参考来源:David Sehyeon Baek
新兴技术在战场上的扩散,引发了关于这些系统是否正在从根本上引发战争革命、是否具有深远的战略、战役和战术影响的激烈辩论。有证据表明,此类断言为时过早。战争特性的变化并未经历一场突然的革命,而是经历着一个不平衡的渐进演变过程,其中钢铁、火药与鲜血依然至关重要。工业产能与能力、常规火力、人力等传统战争要素对于取得胜利而言仍然不可或缺,这要求各国在尖端创新投资与传统军事力量的持久原则之间取得平衡。
过去二十年间,新技术在战场上扩散,已成为当代冲突的常态特征。这些技术包括军用及商用无人平台、人工智能、网络能力、天基资产和云计算等。分析人士和从业者经常将其普遍存在解读为下一场军事革命到来的证据。此观点的支持者认为,新兴技术通过改变攻防力量平衡、增加战争与冲突的可能性,并最终催生新的作战与组织模式,正在从根本上重塑战争的方向与特性。根据这一视角,当代技术降低了人类操作员的风险,促进了低于常规战争门槛的行动,使得传统武器系统日益过时,并通过提供持久的情报、监视与侦察覆盖,使战场持续透明化。然而,来自历史及当代冲突的经验证据,并不支持一场全面革命的说法,反而表明此类结论至少为时过早。战争并未经历一场突然的革命,而是一个持续且不均衡的演变过程。变化不可避免,延续性亦然。除了新技术,钢铁、火药与鲜血依然重要。事实上,工业产能与能力、传统平台、常规动能火力以及军事人员等传统战争要素,在战斗和取胜中仍然必不可少。
本章运用既定的军事革命标准,即需要对战争特性、条令和组织结构进行根本性改变这一要求,来评估当代发展,并特别关注近期在东欧和中东的冲突。分析表明,虽然新技术以及现有平台的新颖运用和改造在特定情境下起到了力量倍增器的作用,但它们尚未产生根本性的革命或断层。相反,当代战争反映了既有方式与手段的快速但持续的演进。
尽管战争特性无疑正在经历演变,但其内在逻辑比许多当代论断所暗示的更具韧性。新技术的影响将受到创新与反创新持久循环的调节,并将取决于各国整合这些技术的能力,以及其武装力量在理念和组织上的适应性。认识到这些现实,并相应地在平台集成、工业准备与韧性以及人员能力方面进行投资的国家,将更有能力在当代及未来战争中有效竞争并取得胜利。