会员服务 ·

专业可信的知识分发

高级搜索

反无人机

基于竞争性多智能体强化学习的携网无人机高机动目标拦截研究

专知会员服务

6+阅读 · 8月5日

美陆军-工业界协同推进反无人机系统技术发展

专知会员服务

5+阅读 · 8月5日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

12+阅读 · 8月1日

武器目标分配

《多武器毁伤效能评估：解析解与优化瞄准点研究》

专知会员服务

6+阅读 · 8月5日

《一种基于博弈论的海军平台动态武器分配问题求解方法》

专知会员服务

5+阅读 · 8月5日

《一种面向武器目标分配的快速可扩展Transformer-指针强化学习框架》

专知会员服务

7+阅读 · 8月5日

军事防务

关注 1356

军事防务数据板块介绍：系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块，其核心在于整合全球新兴国防技术（军事人工智能、无人系统等）、热点案例（俄乌战争、美以伊战争）等方面的最新时讯、研究报告/论文、条令法规、案例分析，为战略研判、情报分析、决策支持等提供知识支撑。

面向2027年及未来的海军情报改革

透视一体化防空：人工智能如何重构从探测到杀伤的靶向全流程

《多武器毁伤效能评估：解析解与优化瞄准点研究》

《一种面向不确定作战环境的异构无人机协同任务与航路规划随机多目标优化方法》

《一种基于博弈论的海军平台动态武器分配问题求解方法》

军事防务 · 多智能体 · 无人机蜂群 · 博士论文 ·

7 月 18 日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文提出一种新型计算仿真框架，旨在基于代智能体建模与仿真（ABMS）方法，评估三类集群无人机模型的涌现行为。这三种模型分别为：基于Bruckstein蚁群理论的领导-跟随者集群模型、基于简化Reynolds“类鸟对象”模型的集群模型，以及基于信息素协调的共识响应模型。仿真的核心目标在于评估上述模型在四种独立场景下，将预定数量的各类无人机投送至目标区域的性能表现，累计完成五万次独立仿真试验。各场景设计旨在系统性地考察集群模型性能如何响应代理层参数与外部环境因素的变化。仿真结果揭示了模型间存在统计学显著差异。数值分析与可视化手段进一步呈现了各集群模型在布满随机障碍物环境中行进时所展现的复杂行为特征。

此外，本研究通过计算空间熵与行为熵，对各模型所表现出的自适应行为程度进行了量化。这种对熵的创新性应用，为刻画不同类型集群的涌现行为与稳定性提供了定量依据。其中，集群模型取得了最高的任务成功率，在所有威胁等级下均表现出鲁棒性，但对任务所需无人机数量的增加较为敏感；领导-跟随者模型在高威胁密度环境中面临挑战，但在任务要求更高无人机数量时成功率有所提升；简化的共识响应模型表现欠佳，且信息素挥发率对其性能影响甚微。通过整合统计分析与基于熵的度量指标，本研究构建了一个可复用的ABMS框架，用于分析集群性能，支持基于场景的决策制定与系统优化。研究成果深化了对集群行为机理的理解，丰富了集群智能领域的知识体系，并为无人机集群系统的设计与部署提供了切实可行的实践路径。

后续章节安排如下：第二章梳理相关研究，回顾集群的本质特征及其在物理系统中的潜在应用；探讨基于Reynolds类鸟对象模型与Bruckstein蚁群理论的数学原理，以解析无人机集群的集体行为；并阐述验证与确认模型及ABMS仿真构建的方法论。第三章阐述研究与实验方法论。第四章详细讨论基于概览、设计概念与细节（ODD）协议的模型开发过程，并探讨为确保实验完整性所必需的模型验证框架。第五章展示仿真事件的分析数据与结果解读。第六章则提出对当前基线实验设置的改进方案，以支持该领域研究的持续与拓展。第七章总结全文并得出结论。文末附有参考文献。附录A呈现基于NetLogo平台编写的程序代码；附录B概述NetLogo代码的功能模块，描述模型执行的具体操作；附录C为本研究分析环节所使用的R语言程序文件；附录D列举了数值分析与熵计算的代表性输出文件。

成为VIP会员查看完整内容

军事防务 · 任务规划 ·

7 月 26 日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

军事任务规划是一项在不确定性与动态环境中开展的认知密集型工作。现有模拟器与决策支持工具常因战术逻辑固化，难以在新洞察涌现时及时调整，因而无法跟上瞬息万变的战场态势。这导致了规划人员的专业经验与既有系统中僵化模型之间的脱节。为弥补这一鸿沟，本文提出一种集成框架，融合可配置的贝叶斯信念网络（BBN）、融合地形数据的路径规划任务模拟器，以及基于交互式地图的操作界面。在该框架下，用户既可在模拟器中探索备选方案与作战条件，也可直接修改支配结果概率的贝叶斯信念网络逻辑。实验表明，调整假设或逻辑会导致预测结果及其可视化呈现出现可观测、可解释的差异，证明了系统在推演过程中捕捉并呈现不确定性的能力。上述成果凸显了基于概率推理与仿真的用户可配置决策支持的可行性，为开发更直接反映专家知识、支撑作战分析的工具体系迈出了关键一步。

图1：所提出决策支持系统的高层组件图，展示用户界面、评估框架（含任务模拟器与战术贝叶斯信念网络）及支撑服务。

军事任务规划是在时间紧迫、信息不完整及态势剧变条件下进行的认知密集型活动。尽管《盟军联合作战计划条令》¹等正式文件规定了对我方与敌方行动进行结构化分析的流程，但在实践中，指挥官及参谋人员在行动前往往仅能评估极少数方案²。面对海量信息超出处理能力、可行战术方案搜索空间极为庞大的现实³，即便经验丰富的规划人员也可能仅能探索有限的选项与风险组合，从而遗漏可行的替代方案。这一长期存在的挑战推动了计算机辅助决策支持工具的研发，以期减轻认知负担并拓宽方案考量范围。此类系统被嵌入规划工作流，并对显式的战术世界模型进行编码：涵盖兵力如何发挥效能、地形与天候如何影响机动与侦察，以及观测数据如何更新系统状态。然而，如何将军事专家的知识以可获取、可追溯且可快速编辑的形式加以固化，始终是一大难题。

过去二十年间，学界提出了大量智能决策支持系统（IDSS），以辅助不确定性环境下的军事规划⁴⁻⁶。FOX-GA是首批将遗传算法应用于军事规划的范例之一，其通过高效的兵棋推演模块生成并评估行动方案（COA），在运算速度与战场真实性之间取得平衡⁴⁻⁵。后续研究在FOX-BBE系统中拓展了相关理念，将遗传算法应用于更高保真度、更具可变性的仿真环境⁶。几乎同期，美国国防高级研究计划局（DARPA）“深绿”项目致力于提供持续性规划支持，通过融合草图式行动方案生成、快速多分辨率作战模型及实时监测，预判未来态势的演变趋势⁷⁻⁸。FOX-BBE与“深绿”均彰显了人工智能驱动仿真在拓展方案空间、加速规划进程方面的潜力。基于知识的工具，如案例设计工具（CADET），展示了自动化扩展作战计划的能力——其质量可媲美人类参谋工作，同时大幅缩短规划时间，尤其在联军行动背景下⁹。然而，此类系统普遍存在共性局限：其底层战术逻辑基本固化，军事专家难以在不（重新）编程的前提下快速调整。这造成了专业知识与模型行为之间的“模型—专家鸿沟”。

研究者亦探索了贝叶斯网络（BN）作为表征不确定性的规范方法，其应用涵盖预见性决策支持¹⁰及战役级重心分析（COGNET）¹¹等领域，后者利用因果贝叶斯网络模型映射薄弱环节并评估影响。此类工作印证了贝叶斯网络在捕捉专家知识、随新情报更新概率方面的灵活性。但此前的行动方案生成系统并未将实时概率推理与仿真相结合。将概率推理引入规划闭环极具吸引力，因其允许战术世界模型中的假设得以表达、检视，并能随证据输入而更新。

早期决策支持系统多依赖确定性仿真或启发式规则。相比之下，贝叶斯网络等概率方法为编码专家知识、随新证据更新信念、以及在复杂关联中传递不确定性提供了规范路径。这些技术能使规划人员更清晰地洞察假设、初始条件与决策选择如何交互并塑造任务结局。然而，现有方法仍鲜少允许领域专家在规划过程中直接调整战术世界模型，“模型—专家鸿沟”问题悬而未决。

本文通过构建一种集成决策支持系统，直面终端用户快速编辑战术世界模型的显性缺口。该系统融合用户可配置的贝叶斯信念网络、任务模拟器、地形分析模块及基于交互式地图的用户界面。在此设计中，贝叶斯信念网络充当关于战场关键假设的可编辑逻辑层，使专家无需修改源代码即可直接调整规则。本系统旨在为任务规划三个互补层面提供支持：一、比较战场模型与假设的不同表述（如损耗动力学或侦察逻辑）；二、探索当前态势的多元表征及情报与环境要素中的不确定性；三、评估与对比不同的任务方案。

该架构通过将概率推理与分步仿真相结合，明确支持上述三种应用模式，使得不确定性能够随推演进程持续更新与可视化。结果部分通过聚焦于三个层面的初步实验阐释了这一设计，展示了系统如何助力指挥官以统一方式探索模型假设、战场态势与战术选择。

成为VIP会员查看完整内容

军事防务 · 空天通信 · 人工智能 ·

7 月 23 日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

第六代网络与无人机及卫星技术的深度融合，将为无线通信领域带来质的飞跃，为构建统一、无缝的“空-天-地-海”一体化网络奠定基石，从而实现全球全域的全面互联。在这场变革的核心，人工智能通过增强决策自主性、实现实时数据处理以及优化网络性能与覆盖范围，正驱动着各行各业的创新。本综述聚焦面向第六代网络应用的人工智能赋能无人机-卫星通信技术，深入剖析其面临的挑战、蕴藏的潜力与未来的发展方向。这一新型系统有机融合了第六代网络的极速传输能力、无人机（先进飞行器）的灵活机动特性与卫星的全球覆盖优势，为精准农业、灾害管理、电信服务升级及遥感探测开辟了全新可能。尽管前景广阔，该领域仍面临频谱管理、安全风险、监管壁垒及人工智能操作无缝集成等复杂挑战。本文对上述挑战进行了系统性剖析，提出了创新性解决方案，并规划了未来研究路径，旨在充分释放第六代网络赋能的无人机-卫星通信的全部潜能。此外，文中包含一项案例研究，实证了多臂赌博机算法在优化无人机-低地球轨道卫星通信场景下的资源分配与决策过程中的有效性，显著提升了网络性能。通过攻克这些关键难题，本研究为构建新一代超高连接、数据驱动的应用形态夯实了基础，这些应用将重新定义全球互联互通格局与科技发展范式。

图1 无人机-卫星应用前景。

即将到来的第六代网络有望开创泛在连接的新纪元，提供每秒太比特级的链路速率、超低时延及海量容量，以容纳极其庞大的连接设备与服务矩阵。无线通信领域的这一范式跃迁，与无人机及卫星通信系统的集成形成强大协同效应，催生了“第六代网络赋能无人机-卫星通信”这一崭新领域。

无人机已从执行特殊任务的尖端装备演变为众多领域不可或缺的核心工具。其凭借易用性及强大的多维信息采集能力，在农业植保、路桥巡检、应急响应和环境监测等场景中得到广泛应用。要充分发挥无人机效能，必须实现数据的高效实时收发，这在偏远或难以抵达的作业区域尤为关键。将无人机与卫星通信系统相结合，有效突破了传统通信的地理限制，推动了无人机-卫星通信这一交叉领域的蓬勃发展。卫星凭借其全球无缝覆盖与广域通信能力，将无人机的连接触角延伸至地球任意角落，形成优势互补。这种协同效应不仅重塑了数据的采集与分发模式，更为即将到来的第六代网络时代注入了巨大潜能——第六代网络预计将开启超连接新纪元，提供前所未有的传输速度、极低时延，并具备容纳海量连接设备与服务的能力。在第六代网络架构下，无人机与卫星技术的深度融合，预示着一项具有变革意义的突破，将为各行业带来颠覆性的机遇与能力。

无人机-卫星通信在第六代网络中的战略价值不容小觑。第六代网络将提供高达太比特每秒级别的超高速数据传输能力，支撑各类高速通信需求。这对于无人机实时回传高清视频与遥感数据至关重要。此类高速能力在灾害响应等场景中尤为关键，稳定即时的数据链路往往决定着生命救援与资源调配的成败。此外，低时延通信是第六代网络的核心属性之一。

尽管无人机辅助卫星技术潜力巨大，其迈向规模化应用仍面临多重挑战。首要挑战在于无人机-卫星网络建模必须满足严苛的服务质量要求，涵盖公平性与连接可靠性、覆盖范围与网络鲁棒性、能耗效率及可达吞吐量等维度。其次，网络内异构资源的跨层协同优化机制亟待完善。再者，部署的无人机集群必须具备应对复杂现实环境的能力，包括动态航迹规划与自主避障、姿态稳定性控制、能耗管理与热平衡调控等，任一环节的疏漏都可能对系统性能与模型精度产生连锁负面影响。

随着人工智能驱动的自主无人机集群规模不断扩大，快速决策并将指令同步至中央控制系统或其他节点成为刚需。无人机与卫星间的低时延通信，显著提升了集群协同作业、远程巡检与监视任务的执行效率，保障了响应的敏捷性与行动的协调性。人工智能在优化第六代网络下无人机-卫星通信架构方面展现出巨大潜力。智能算法能够瞬时处理海量异构数据，动态优化无人机与卫星间的信息路由策略。人工智能还可预判信道干扰，自适应调整通信频段，并全面提升网络资源利用效率。此外，人工智能赋予无人机智能感知动态环境变化的能力，使其能够自主选择最优通信模式。

潜在应用场景

图1系统梳理了第六代网络赋能无人机-卫星通信的多元关键应用场景，凸显了其凭借超高速、低时延和可靠连接特性，在各实体经济领域引发的变革潜力。在遥感与对地观测领域，依托第六代网络的极速传输能力，搭载于无人机的高分辨率成像仪与传感器可实时采集农业墒情、林业资源、环境指标及灾情动态数据。在精准农业实践中，无人机提供的土壤墒情、作物长势及微气象实时信息，支撑着数据驱动的田间精细化管理决策。此外，无人机通过实时边缘计算与高清视频流式传输，大幅提升了桥梁、管道等关键基础设施的智能巡检效能。在应急响应与搜救行动中，配备多模传感器与高通量通信模块的无人机不仅提供全景态势感知，协助定位受困人员，还能为基础设施损毁区域快速建立临时应急通信网络。野生动物监测与保护工作受益于无人机对种群动态与盗猎活动的隐蔽追踪能力，第六代网络确保了从无人区回传的海量监测数据畅通无阻。远程医疗应用借助无人机向偏远地区投送急救药品并支持高清远程会诊，无人机在此类场景中化身空中中继节点，显著增强了网络盲区及受灾断网区域的信号覆盖。基于第六代网络的瞬时数据传输能力，智能安防系统利用无人机执行全天候边境巡防与大型活动人流监控。融合激光雷达与三维实景建模技术的无人机平台，推动了高精度地图制图、数字孪生城市构建与环境演变监测。此外，无人机实现了偏远海岛、深山腹地的物流高效投递，为赛事直播提供沉浸式鸟瞰视角，并支撑着大气物理、地质勘探与海洋科考等前沿科学研究。最后，无人机通过实时感知交通流态与基础设施健康状况，辅助智能交通管控，有效提升路网通行效率并缓解拥堵顽疾。

图2. 6G无人机卫星赋能技术。

成为VIP会员查看完整内容

大语言模型 · 博士论文 ·

7 月 18 日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

博士论文 | Towards Domain Adaptation, Deployment, and Interpretability in Large Language Models

导读

通用大语言模型的能力来自“广泛性”：它们在大规模语料上学习语言规律，因此可以写代码、摘要、翻译、对话，也能在很多开放任务上给出流畅回答。但真实应用往往不是“广泛”的，而是“处境化”的。农民需要本地作物、病虫害、土壤和季节相关建议；企业需要把自然语言接到内部文档、数据库和工具；神经科学研究者不仅希望模型预测脑响应，还希望理解模型到底用什么语义特征完成预测。 UC Berkeley 2026 年博士论文《Towards Domain Adaptation, Deployment, and Interpretability in Large Language Models》讨论的正是这个落差：如何把一个通用 LLM 变成真正可用、可部署、可解释的领域系统。论文作者 Vinamra Benara 的核心观点很清晰：领域适配不是在 RAG 与微调之间做单选，也不是只调一个模型参数，而是一个端到端系统工程问题，涉及文档解析、数据构建、知识注入、检索、评测、部署架构、工具插件和可解释表示。全文由四项工作组成：第一，围绕农业问答构建端到端领域适配管线，系统比较 RAG 与微调；第二，提出边缘-云层次化模型部署架构，让领域助手能在弱网、低延迟和隐私约束下工作；第三，将农业管线抽象为可复用的语言模型 Copilot 开发框架；第四，提出 QA-Emb，用“向 LLM 提一组是/否问题”的方式构造可解释文本嵌入，并用于语言神经科学中的 fMRI 响应预测。这篇论文的价值不只在于单点方法，而在于给出一种“全栈 LLM 领域系统”的视角：有用的模型，必须连接正确知识，用正确指标评估，在真实约束下服务，并在高风险或科学场景中提供可解释性。

论文信息

论文标题：Towards Domain Adaptation, Deployment, and Interpretability in Large Language Models 作者：Vinamra Benara 机构：University of California, Berkeley, Electrical Engineering and Computer Sciences 报告编号：UCB/EECS-2026-233 导师：Ion Stoica 委员会成员：Joseph Gonzalez、Aditya Parameswaran、Chandan Singh 时间：2026 年 7 月 6 日论文链接：https://www2.eecs.berkeley.edu/Pubs/TechRpts/2026/EECS-2026-233.pdf

1 Introduction 引言

从通用模型到具体世界

论文开篇指出，互联网规模训练得到的 LLM 通常是通用系统。它们可以遵循多种指令，但并不会自动具备高专业度、高风险、资源受限场景所需的能力。农业顾问、企业 Copilot、科学解释模型都需要的不只是一个强 base model，而是一个能吸收领域知识、适应部署约束、并暴露可解释结构的完整系统。作者把问题概括为“通用模型与具体世界之间的差距”。一个农业助手如果只给出“春天适合种树”这样的通用回答，即使听起来合理，也无法替代地方专家。正确答案可能依赖州、国家、土壤、作物品种、病虫害、法规和季节。因此，领域适配要处理的不是一个提示词问题，而是从原始资料到可用服务的整条链路。

三个核心问题

第一是知识问题。领域知识可能缺失、过时、散落在 PDF、网页、表格或内部文档中，也可能以复杂版式存在。系统必须先把这些资料变成可训练、可检索、可评估的结构化资源。第二是部署问题。领域用户未必处在稳定云环境中。以农业为例，用户可能在田间、农村或弱网环境中使用助手。云端大模型能力强，但不可用时就没有价值；本地小模型能力有限，却能在离线或低延迟条件下继续提供服务。第三是可解释问题。在科学和高风险领域，模型不能只是给出高分预测。研究者还要知道表征维度对应什么语义、哪些特征影响预测、模型是否学到可解释结构。论文第 5 章的 QA-Emb 正是围绕这个问题展开。

主要贡献

论文的贡献可以概括为四点。其一，建立农业领域 LLM 适配基准与管线，比较 RAG、微调及其组合。其二，提出可在设备、边缘服务器和云之间动态路由的层次化部署架构。其三，提出可复用的 Copilot 开发框架，将数据资源构建与运行时插件调用分离。其四，提出可解释的问答嵌入 QA-Emb，让每个嵌入维度都对应一个自然语言问题。

2 RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture

问题背景

第 2 章围绕一个实际问题展开：如果要把 LLM 适配到农业领域，应该使用检索增强生成，还是微调？直觉上，RAG 更适合接入外部知识，微调更适合让模型内化领域风格与知识。但在真实领域中，二者的边界并不清楚，也缺少系统比较。论文以美国、巴西和印度的农业资料为基础，构建领域数据集。农业是一个很好的测试场，因为它具有强烈地域性：同一个问题在不同地区可能有不同答案。例如种植时间、病虫害治理、土壤修复和作物管理都依赖本地知识。

端到端适配管线

作者构建的管线包括五步：收集领域文档；解析 PDF 和文档结构；生成问答对；用问答数据进行微调；在有无 RAG 的条件下，用 GPT-4 作为评测器进行多指标评估。这里的重点不是简单把文档放进向量库，而是先把复杂文档中的内容与结构抽取出来，再生成可用于训练和评测的高质量问答。

这一管线还引入了基于 rubric 的评测方式。对于开放问答，简单字符串匹配、BLEU 或 ROUGE 很难判断回答是否真正包含关键事实。因此论文使用问题、参考答案和评价准则，让 GPT-4 按相关性、覆盖度、流畅性、扎实性、简洁度等维度评分。这种做法为开放式领域问答提供了更接近专家判断的自动化评估路径。

关键实验结果

实验显示，RAG 和微调不是竞争关系，而是互补关系。在农业问答中，GPT-4 基础模型准确率为 75%，加 RAG 后达到 80%；GPT-4 微调后达到 81%，微调再加 RAG 后达到 86%。也就是说，微调大约带来 6 个准确率点提升，RAG 在此基础上又贡献约 5 个点。

更重要的是，论文发现微调不只是改变回答风格，也能把新知识写入模型。对于模型未在训练中见过的区域特定问题，GPT-4 只能学到约 47% 的新知识；经过微调后，这一比例提升到 72%-74%。这说明，在某些稳定领域知识上，微调确实能够提升模型的内部化能力。

两类方法的取舍

论文总结了 RAG 与微调的不同成本结构。RAG 的初始成本较低，主要是构建嵌入和检索索引；它适合答案依赖上下文、知识更新快、需要引用证据的场景。但 RAG 会增加输入长度，回答可能更冗长，也更依赖检索质量。微调的初始成本较高，需要训练资源和高质量数据；但它可以让模型形成领域技能，输出更简洁、更符合任务风格，在稳定知识和固定流程上表现更好。真正的工程选择不是“只用哪一个”，而是根据知识更新速度、数据规模、成本预算、延迟约束和可解释要求组合二者。

3 Edge-Cloud Hierarchical Language Model Design

动机

第 3 章转向部署。一个领域适配模型如果只能在理想云环境中工作，就很难服务真正需要它的人。农业用户可能在弱网地区，企业用户可能受隐私约束，移动端用户可能受设备资源和延迟限制。论文因此提出边缘-云层次化语言模型设计。

架构设计

系统分为三层：前线边缘设备运行小模型并存储本地上下文；后端边缘服务器运行中等模型；云端运行大模型。模型选择器根据网络连接、设备负载、查询难度、延迟要求和上下文可用性决定由哪一层回答。

这种架构的关键是把“能力”和“可用性”一起纳入设计。简单问题可以本地回答，保护隐私并降低延迟；需要更强推理或更大上下文时，系统再升级到边缘服务器或云端。论文还讨论了用户特定上下文和行业特定上下文的预生成与同步，使得本地设备在离线情况下也能用缓存知识继续回答。

查询处理

运行时，用户通过文本、语音或图像支持界面提交问题。系统先检索本地或行业上下文，再由模型选择器决定使用本地小模型、边缘中模型还是云端大模型。若小模型无法满足准确率或延迟阈值，查询可以逐级上交；如果网络不可用，系统则尽量在本地上下文范围内完成响应。这部分的贡献不在于某一个模型，而在于把模型选择、上下文缓存、连接状态和服务质量放入同一个推理路径中。对于真实部署，这常常比追求单一最大模型更重要。

4 Framework for Language Model Copilot Development

框架概览

第 4 章把农业适配管线进一步抽象为可复用的语言模型 Copilot 开发框架。框架包含两个层次：离线数据管线和在线 Copilot 运行时。离线管线负责获取领域数据、抽取文档结构、生成问答对、评估问答质量、创建微调数据，并构建检索索引。在线运行时则托管或调用语言模型，通过工具解析器暴露插件，让模型可以访问外部 API、文档索引、数据库和领域服务。

知识资源构建

论文将“知识资源”定义为领域 Copilot 的核心资产。它不仅是一个向量数据库，而是包括原始资料、结构化抽取结果、元数据、问答数据、评测标准、微调模型和检索索引的组合。这样做的好处是，适配结果可以跨应用复用：同一套资源既能支撑 RAG，也能支撑微调，还能服务插件工具。

插件式运行时

插件架构让 Copilot 不只是生成文本，而是能连接外部能力。用户查询进入系统后，LLM 接收可用工具描述，工具解析器决定调用哪个插件，插件通过 REST API 接入数据摄取、工具执行或管理服务，再把结果返回给模型生成最终回答。这种设计特别适合企业和行业场景，因为领域能力往往分布在多个服务中。与其把所有知识硬塞进模型，不如让模型成为自然语言接口和决策层，围绕它构建可审计、可替换、可扩展的工具生态。

5 Crafting Interpretable Embeddings for Language Neuroscience by Asking LLMs Questions

方法思想

第 5 章讨论可解释表征。传统 embedding 通常是黑箱向量，维度没有明确语义。QA-Emb 的想法很直观：给定一段文本，向 LLM 提出一组自然语言是/否问题，例如“句子是否包含数字信息”“句子是否描述物理动作”“句子是否语法复杂”。每个问题的答案映射为 0/1，所有答案组成一个 embedding。这样，每个维度天然可读。训练的核心变成选择哪些问题最有用，而不是解释一个不可读的隐藏向量。论文将 QA-Emb 用于 fMRI 语言响应预测，也扩展到信息检索和文本聚类等简单 NLP 任务。

语言神经科学实验

在 fMRI 响应预测任务中，QA-Emb 的表现超过经典可解释基线 Eng1000，并与黑箱 BERT 基线相当，但低于表现最强的 LLaMA 表征。论文报告，QA-Emb 相比 Eng1000 提升 26%，并且随着问题数量增加，性能快速上升；用 29 个问题就能接近 985 维 Eng1000 基线的效果。

可解释权重

QA-Emb 还可以把语义问题映射到脑区选择性。例如，与物理动作、物理环境、语法复杂度相关的问题，在不同受试者上学到的权重呈现一定一致性。相比黑箱 embedding，这种表示更容易被研究者用于提出神经科学假设。

局限与扩展

论文也强调 QA-Emb 并非万能。它依赖 LLM 对是/否问题的回答质量，构造大量问题可能带来计算成本，问题选择也会影响最终表征。为降低成本，作者还研究了把多次 LLM 调用蒸馏为单次前向模型，结果显示蒸馏不会显著损害性能。在信息检索任务中，QA-Emb 单独使用表现一般，但与 BM25 结合时能带来小幅显著改进；在文本聚类中，利用 GPT-4 为任务选择相关问题可以进行零样本适配。这说明 QA-Emb 更像是一种可解释补充层，适合与已有检索或表示方法组合，而不是完全替代黑箱 embedding。

6 Conclusion 结论

统一观点

论文最后回到中心论点：把 LLM 适配到真实领域，不是选择一个模型技巧，而是设计一整套系统。完整系统必须决定如何收集领域资料、如何把知识写入或检索出来、如何评估开放回答、如何在真实约束下部署，以及如何在需要理解的场景中构造可解释表示。第 2 章说明，RAG 和微调各自解决不同问题。RAG 擅长接入外部证据和动态知识，微调擅长内化领域模式和稳定技能，组合使用往往更强。第 3 章说明，部署架构决定模型能力能否真正触达用户。第 4 章说明，领域 Copilot 应当围绕知识资源和插件运行时构建，而不是只围绕一个模型端点。第 5 章说明，可解释性可以从表征设计阶段内置，而不是事后再补解释。

局限与未来方向

论文提出的限制也很有启发。首先，所有系统都依赖初始数据抽取质量。复杂 PDF 和多模态文档解析错误会级联影响问答生成、检索和微调。其次，用 LLM 生成训练对或评测输出会受到基础模型能力限制，合成监督可能遗漏罕见边界情况。第三，边云架构虽然缓解连接问题，但引入了复杂编排权衡，需要持续平衡数据本地性、存储限制、计算开销和延迟。第四，QA-Emb 的问题集合仍然依赖问题生成质量和回答可信度。未来值得推进的方向包括：更强的文档结构抽取与多模态资料解析；能自动发现知识缺口并自我修正的领域模型；更细粒度的模型路由与上下文同步策略；可解释 embedding 与 RAG 系统结合，让检索结果不仅“相关”，还可以说明相关原因。

总结

这篇博士论文最重要的启示是：模型只是 LLM 系统的一部分。真正决定系统能做什么的，是围绕模型的文档、解析器、生成数据、检索索引、微调过程、评测器、插件、服务基础设施、缓存上下文和可解释特征。通用 LLM 要进入具体世界，必须被接到正确知识上，用正确标准评价，在正确约束下服务，并在需要时给出可读解释。论文从混乱领域文档走向适配模型，从适配模型走向可部署 Copilot，再从黑箱向量走向可解释表示，给出了一条非常完整的工程与研究路线。

成为VIP会员查看完整内容

长程智能体 ·

7 月 18 日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

综述 | Towards Long-Horizon Agents：长程智能体研究全景

导读

当大模型智能体从“回答问题”走向“持续完成真实任务”，最难的部分往往不再是某一步推理是否正确，而是能否在几十、几百甚至上千个相互依赖的步骤中保持目标、管理上下文、调用工具、修复错误，并在环境反馈中持续调整策略。这正是“长程智能体”成为当前智能体研究核心瓶颈的原因。这篇 149 页综述《Towards Long-Horizon Agents: A Survey》给出一个系统化框架：长程智能体不是单靠更大模型或更长上下文就能自然出现的能力，而是由“外部化的运行时框架工程”和“内部化的模型优化”共同塑造。前者包括循环与工作流、上下文与记忆、工具协议、编排、钩子与中间件、验证；后者包括架构基底、数据与环境合成、预训练与中期训练、微调、智能体强化学习、在线策略蒸馏和自演化。本文按照原论文结构展开，依次梳理基础定义、技术演化、运行时框架、模型优化、应用落地和开放前沿。对于关注智能体、软件工程自动化、深度研究、计算机使用、多模态交互和通用助理的读者，这篇综述的价值在于把分散概念统一到同一张地图中：什么是长程任务，长程能力来自哪里，为什么现有智能体会失败，以及下一代系统应当如何设计。

论文信息

论文标题：Towards Long-Horizon Agents: A Survey 副标题：Foundation, Evolution, Harness, Optimization, Application, and Frontier 作者团队：来自中国人民大学、北京大学、清华大学、中山大学、香港科技大学、新加坡国立大学等机构。项目主页：https://Long-Horizon-Agents.github.io 代码与资源：https://github.com/RUC-NLPIR/Awesome-Long-Horizon-Agents

1 Introduction 引言

过去几年，LLM 已从单轮聊天系统逐步成为软件工程、通用助理、科学发现、计算机使用和多模态交互中的决策核心。表面上这些应用差异很大，但它们共享一个关键要求：智能体必须在长时间跨度内持续迭代，反复经历推理、工具调用、环境观察和策略修正，最终完成一个完整目标。论文将长程智能体定义为：能够在扩展时间跨度上规划，与真实环境交互，从自身错误中恢复，并在执行过程中调整策略的智能体。这里的“长程”不是简单地运行更久，而是指任务轨迹中存在多个相互依赖的决策步骤，局部错误会沿轨迹累积，后续行动又会改变可观察状态和可选策略。长程任务之所以困难，主要来自三类失败模式。第一是目标漂移与复合误差：智能体每一步都可能只有轻微偏差，但在长轨迹中会逐渐偏离原始目标。第二是上下文腐化与窗口压力：当上下文越来越长，模型可能遗忘关键约束、重复无关信息，甚至因为感知到上下文接近上限而提前宣告完成。第三是稀疏、延迟奖励与不可逆行动：很多任务只有终局反馈，智能体很难知道中间步骤是否真正有价值，而且行动越长，越容易出现难以回滚的风险。因此，论文提出的中心论断是：长程智能体是一种系统级能力，由外部化框架工程与内部化模型优化共同形成。外部框架让智能体在运行时可指定、可控制、可验证、可恢复；内部优化则让模型逐步学会更稳定的长程策略。两者不是替代关系，而是共同演化关系：框架中的经验会被内化为模型能力，更强模型又会解锁更复杂的框架设计。

2 Foundation: Formalizing Long-Horizon Agents 基础：形式化长程智能体

定义

论文将长程智能体形式化为一个与运行时框架耦合的决策过程。智能体并不是孤立地根据当前提示生成下一段文本，而是在环境状态、历史轨迹、工具接口、记忆系统、验证器和控制策略共同构成的系统中选择动作。每一步动作都会改变后续观察和可用信息，也会影响未来成功概率。这一形式化强调两个要点。首先，长程能力需要跨步骤保持一致性，包括目标、约束、计划、环境状态和中间产物。其次，长程能力需要在执行中适应反馈：智能体不能只按照初始计划机械推进，而要能根据工具返回、错误提示、测试结果或外部观察修订路线。

三层任务与能力

论文把长程任务划分为三个层级，并对应三类能力。第一层是单上下文内任务。任务可以放进一个上下文窗口，通常在分钟级完成，但仍需要多步推理与交互，例如阅读一个代码文件后修复一个局部 bug。对应能力是单上下文交互式推理：模型需要在同一窗口内跟踪目标、观察和行动结果。第二层是跨上下文任务。任务需要跨越多个窗口、会话或小时到天级执行，例如完整开发一个功能、持续调试项目、完成多轮深度研究。对应能力是跨上下文状态与记忆：系统必须保存关键进展、恢复工作现场、压缩或检索历史信息。第三层是跨任务开放流。智能体面对的是连续任务流或长期部署环境，例如个人助理、研究助手、长期代码维护者。对应能力是跨任务经验积累：系统要把过去任务中的失败、偏好、工具经验和环境知识转化为后续可复用能力。

时间跨度扩张

论文引用前沿智能体时间跨度趋势，说明先进系统在软件工程风格任务上的 50% 完成时间跨度已从秒级增长到小时级，整体拟合的翻倍时间约为 196.5 天；若只看 2023 年以来的模型，翻倍速度约为 130.8 天。作者也提醒，这类估计受评测方法、模型版本和样本选择影响，但趋势非常清晰：可委托给智能体的任务长度正在快速增长。这意味着评估智能体不能只看单步准确率或短任务得分。真实价值越来越取决于系统能否在更长轨迹中保持可靠性、成本可控性和错误可恢复性。

与相邻概念的区别

论文特别区分了长程智能体与三个相邻概念。长运行智能体强调运行时间长，但长时间运行并不必然意味着任务具有长程依赖。自主智能体强调人类介入少，但高度自主的短任务系统也未必具备长程能力。自演化智能体强调系统会随经验更新自身策略或结构，而长程智能体可以有自演化能力，也可以主要依靠稳定框架和固定模型完成长任务。因此，长程智能体的核心问题是：模型与框架耦合后，能否持续完成需要多步交互、状态维护、错误恢复和经验迁移的任务。

3 Evolution: From Prompting to Runtime 演化：从提示词到运行时

提示工程阶段

2020 到 2023 年左右，智能体能力主要通过提示词控制。研究者通过思维链、反思、自一致性、树状搜索、工具调用提示等方式，把更复杂的推理结构写入提示中。这一阶段的控制单位仍然接近单次模型调用，优势是简单、通用、易于迁移；局限是状态管理弱，外部反馈难以稳定闭环。

上下文工程阶段

2023 到 2025 年，控制重心从“如何写提示”扩展到“如何构造模型看到的信息”。上下文工程关注检索、记忆、轨迹压缩、状态摘要、任务资料选择和多模态输入组织。它让智能体能够在更长任务中获得相关信息，同时避免无关历史污染当前决策。这一阶段的重要变化是：能力不只来自模型本身，也来自模型输入边界的管理。一个强模型如果被喂入混乱上下文，仍可能失控；一个一般模型若拥有清晰状态和高质量检索，也可能在特定任务中表现稳定。

运行时框架阶段

2025 年以来，长程智能体进入运行时框架阶段。控制对象不再只是提示或上下文，而是完整执行轨迹。系统需要管理任务循环、工具调用、状态转移、多智能体协同、中间检查、错误处理、权限边界和最终交付。论文强调，这三个阶段不是互相取代，而是逐层吸收。优秀的运行时框架仍需要提示工程和上下文工程；只是它们被嵌入到更大的执行系统中，成为长程能力的一部分。

4 Harness: Externalizing Long-Horizon Capability 框架：外化长程能力

六个核心组件

运行时框架是长程智能体的外部能力载体。论文将其拆解为六个组件。第一是循环与工作流。线性工作流适合明确步骤任务，计划执行工作流适合先分解再执行，分支工作流适合探索多个候选路径并择优。长程任务通常需要在这些模式间动态切换。第二是上下文与记忆。工作上下文负责当前任务内的信息选择、压缩和丢弃；持久记忆则跨窗口、跨任务、跨会话保存重要状态。关键不只是“记住更多”，而是决定什么值得进入当前上下文、什么应该沉淀为长期记忆、什么必须被遗忘。第三是工具、协议与技能。工具让智能体能读写文件、运行代码、检索网页、操作浏览器或调用外部系统；MCP 等协议让工具接口更标准化；技能库则把可复用流程封装为可调用能力。对于长程任务，工具选择、参数构造、错误恢复和权限治理同样重要。第四是编排。复杂任务可能需要多个角色或多个智能体协同，例如规划者、执行者、审查者、测试者、研究者。编排机制负责任务分解、角色分配、通信拓扑、结果聚合和反馈路由。第五是钩子与中间件。它们在关键节点插入规则、策略或自适应控制，例如执行前检查危险操作、工具调用后解析错误、阶段结束时触发总结、成本过高时切换策略。第六是验证。长程智能体必须有持续的质量信号，包括中间状态是否合理、工具结果是否可信、最终产物是否满足目标、是否违反安全约束。验证可以来自规则、测试、外部判别器、模型评审、人类反馈或环境奖励。

5 Optimization: Internalizing Long-Horizon Capability 优化：内化长程能力

训练管线

如果说框架让能力在系统外部显式化，那么模型优化就是把长程行为逐步内化到策略中。论文将优化路径概括为从架构基底到数据环境，再到训练生命周期的完整管线。架构层面，显式上下文架构依赖长上下文窗口直接容纳历史；压缩状态架构用隐状态、记忆压缩或状态空间模型降低长序列成本；混合架构结合两者；高吞吐机制则服务于长轨迹采样和推理效率。数据与环境合成负责产生可训练的长程任务。任务合成生成多步目标，环境合成提供可交互世界，轨迹合成则提供成功或失败执行过程。对于智能体训练，数据不只是问答对，而是包含状态、动作、观察、工具返回和奖励的轨迹。预训练与中期训练为模型注入推理先验、长上下文状态、多模态感知和任务混合能力。微调阶段进一步通过指令选择、课程学习和蒸馏，让模型适应具体智能体任务。

强化学习与自演化

智能体强化学习是内化长程能力的关键路径，但也最具挑战。长轨迹中的奖励通常稀疏且延迟，模型需要判断哪些中间动作真正贡献了最终成功，这就是信用分配问题。与此同时，策略优化必须面对高成本采样、环境随机性、工具错误和不可逆行动。论文将智能体强化学习的核心问题概括为信用分配、策略优化、采样策略和交互模式。有效训练不仅要奖励最终答案，还要利用过程信号、阶段性验证、失败轨迹和环境反馈，让模型学会在真实交互中修复路线。自演化进一步把智能体从“被动训练”推向“部署中成长”。离线自演化从历史轨迹中总结经验并更新策略；在线自演化在运行时根据反馈调整记忆、工具或策略；智能体与环境共同演化则强调任务分布、评测环境和智能体能力会相互推动。论文认为，自演化不是长程智能体的同义词，但它会成为跨任务经验积累的重要机制。

6 Application: Long-Horizon Agents in Practice 应用：长程智能体实践

五类应用

论文将长程智能体实践归纳为五类代表性应用。第一是软件工程。智能体需要理解代码库、定位问题、编辑多个文件、运行测试、根据错误日志修复并交付变更。长程能力体现在仓库级 grounding、工作流规划和反馈驱动修复。第二是信息寻求。深度搜索要求智能体沿一个问题持续挖掘证据，广度搜索要求同时比较多个来源，研究综合则要求整理冲突信息、保留引用链并形成可信结论。第三是计算机使用。浏览器、桌面和移动端智能体需要感知界面、执行点击输入、处理弹窗和错误状态，并在不可完全结构化的环境中完成任务。第四是多模态智能体。它们不仅处理文本，还要理解图像、视频、音频或空间环境，并在多模态状态中维持任务目标。长程多模态任务尤其考验记忆压缩和跨模态对齐。第五是通用智能体。个人助理、具身智能体和生产型智能体需要跨任务、跨场景工作，长期维护用户偏好、环境知识和工具经验。

论文还系统整理了相关基准与资源。一个好的长程评测不能只统计最终是否成功，还应关注轨迹质量、成本预算、错误恢复、安全性、可复现性和真实环境迁移能力。随着任务跨度变长，评测本身也会从静态问答转向可交互环境和真实工作流。

7 Frontier: Open Challenges and Outlooks 前沿：开放挑战与展望

四条前沿轴线

论文将开放挑战概括为四条轴线。第一是演化能力。未来智能体需要更强的自演化框架、更好的框架泛化与迁移能力，以及持续学习能力。关键问题是如何让经验积累真正提升未来任务，而不是把偶然偏差固化为错误习惯。第二是有效性。智能体需要在更真实的环境中行动，包括动态网页、真实软件栈、复杂物理空间和多主体场景。数字环境到具身环境的迁移会放大感知误差、执行延迟和安全约束。第三是效率。长程任务天然昂贵，会消耗大量上下文、推理次数、工具调用和多模态计算。未来系统必须具备预算感知能力，在质量、成本和时间之间做动态权衡。第四是可信性。长程智能体的失败不一定突然发生，更多时候是缓慢漂移、错误累积或不安全操作。系统需要更强的反思与错误鲁棒性，也需要权限、审计、治理和人类监督机制。

8 Conclusion 结论

这篇综述的核心贡献，是把长程智能体从模糊概念整理为一个清晰的系统研究对象。长程能力不是“模型更聪明”的单点结果，而是模型、运行时框架、工具生态、记忆机制、训练数据、强化学习和验证体系共同作用的结果。从实践角度看，下一代智能体系统需要同时回答三个问题：如何把任务拆成可执行、可恢复、可验证的轨迹；如何让模型在长轨迹中保持目标一致和状态连续；如何把运行经验转化为可迁移的长期能力。只有当外部框架与内部优化真正协同演化，智能体才可能从短程交互工具走向可靠的长期工作伙伴。

成为VIP会员查看完整内容

军事防务 · 无人系统 ·

7 月 27 日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文聚焦无人系统联合架构（JAUS）。JAUS是国际自动机工程师学会（SAE）AS-4无人系统指导委员会制定的国际标准。本文将阐述该标准的基本概念及其在实现异构无人系统互操作性方面的适用性，同时介绍相关标准文档与JAUS服务集，最后剖析JAUS标准的优势与局限。

无人系统联合架构（JAUS）是一项国际标准，旨在确立一套通用的消息格式与通信协议，以支持无人飞行器与地面控制站内部及相互间的互操作。该架构最初由美国国防部（DoD）授权制定，旨在为无人地面机器人领域提供开放式架构。此后，JAUS逐步转化为国际行业标准——现归属拥有机器人技术积淀的标准制定机构国际自动机工程师学会（SAE），该学会于2004年8月成立航空航天标准无人系统指导委员会（AS-4）。界定JAUS的全部标准文档均可直接从SAE官网购买。其初衷在于定义开放式通信标准，以支持军用机器人系统的互操作。众多项目与厂商已参与JAUS实践，并成功验证了其在无人系统中的适用性，典型案例包括2004年、2005年DARPA大挑战赛及2007年DARPA城市挑战赛中的多款机器人平台。

JAUS概览

JAUS的核心目标在于规范网络环境下无人系统的通信与协同运作机制。JAUS系统由接入公共数据网络的若干子系统构成。子系统通常对应系统网络中的物理实体，例如无人飞行器或操作员控制单元（见图1）。

JAUS网络进一步划分为层级化结构。子系统下辖节点，节点代表系统中的物理计算端点，例如子系统内部的计算机或微控制器。节点可承载一个或多个组件，组件通常为运行于节点上的应用程序或线程。组件最终由一项或多项服务构成。因此，系统架构呈现如下层级关系：

服务旨在为系统提供特定实用功能。面向服务架构（SOA）赋能无人系统的分布式指挥与控制。JAUS采用的SOA方法致力于规范化系统组件间的消息格式与协议交互。该方法由JAUS服务接口定义语言（JSIDL）予以标准化；这是一种基于XML的语言，为界定JAUS服务提供基础结构与语法规范。所有经JAUS标准化的服务均须采用合规的JSIDL语法进行描述。

成为VIP会员查看完整内容

军事防务 · 无人系统 ·

7 月 21 日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

低成本、可损耗无人航空系统的扩散正在引发现代战争的根本性变革，迫使军方对作战条令、兵力结构及战略投资优先级进行基础性重估。本文采用定量兵力结构优化建模方法，探究2022至2030年间可损耗系统规模化应用对美国军事转型的战略影响。兵力结构优化模型（FSOM）将基于兰彻斯特方程的作战效能函数与线性规划优化相结合，覆盖五类作战想定：高强度常规冲突、有限区域冲突、反叛乱行动、灰色地带对抗及人道主义援助/灾难救援。研究利用经实证校准的数据——源自Oryx装备损失数据库、斯德哥尔摩国际和平研究所（SIPRI）军转数据库及国会预算办公室出版物——在预算约束下确定高端传统平台与可损耗系统的最优配置比例。结果表明，依作战想定不同，可损耗系统的最优配置占比介于65%至85%之间，显著高于当前兵力结构的预设前提。研究揭示可损耗系统相较传统平台的效费比达8.3:1，且在持续损耗条件下具备2:1的战斗力存续优势。假设检验表明，传统上将可损耗系统航空预算阈值设为30%过于保守（H1未获支持），而有人-无人编组协同可产生平均11.3%的效能提升（H2部分支持）。本发现为国防预算分配提供了实证依据，既支撑国防部“复制者”倡议，亦为大国竞争背景下的兵力结构决策提供参考。理论贡献包括将兰彻斯特损耗理论拓展至异质兵力构成分析，并发展了面向国防规划的场景依赖型优化方法论。

关键词：可损耗系统；兵力结构优化；军事转型；无人航空系统；国防经济学；复制者计划；兰彻斯特方程；成本效益分析；大国竞争；诸兵种合成作战

成为VIP会员查看完整内容

ICM 2026 · 国际数学家大会 · 陶哲轩 · 人工智能 · 数学 ·

7 月 26 日

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

导读

2026 年国际数学家大会（ICM 2026）在费城举行。大会期间，陶哲轩作了题为《Mathematics in the age of AI》的公众演讲。这个题目看似是谈 AI 做数学，但通读 slides 会发现，他真正关心的不是“AI 到底有多强”这个单点问题，而是一个更深的问题：当 AI 可能越来越多地参与研究级数学任务时，数学共同体应当如何重新审视自己的目标、价值、制度和实践？这场演讲发生在一个很特别的时间点。ICM 2026 公布了新一届菲尔茨奖得主：Yu Deng、John Pardon、Jacob Tsimerman、Hong Wang。其中，王虹（Hong Wang）和邓熠/邓宇（Yu Deng）获奖尤其受到中文数学圈关注。王虹因调和分析与几何测度论中的突破性工作获奖，并成为菲尔茨奖历史上第三位女性获奖者；Yu Deng 则因偏微分方程、概率与数学物理相关工作获奖。对中国数学界而言，这是极具标志性的时刻。陶哲轩本人也是菲尔茨奖得主。他 1975 年出生于澳大利亚阿德莱德，现任 UCLA 数学教授，研究领域横跨调和分析、偏微分方程、组合数学、解析数论等。2006 年，他因在多个数学领域的深刻贡献获得菲尔茨奖；此后又获得麦克阿瑟奖、克拉福德奖、数学突破奖等重要荣誉。这样一位“问题求解型”数学家，在 ICM 2026 上讨论 AI，不是从技术乐观或悲观出发，而是从数学共同体如何保持健康出发。图1：陶哲轩 ICM 2026 公众演讲标题页。演讲题为“人工智能时代的数学”，时间为 2026 年 7 月 24 日。

一、这不是一道数学题，而是一道共同体问题

陶哲轩一开始提出的问题是：面对现代 AI 技术及其真实或被宣称的数学能力，数学共同体应当如何回应？这个问题不是一道通常意义上的数学题。它不要求证明一个定理，也不只是比较模型在若干基准上的分数。它更接近“元数学”问题，同时也是政治、伦理和文化问题：数学研究究竟追求什么？数学家为什么需要证明？一个结果何时才算真正进入数学知识体系？如果 AI 能更快地产生大量候选证明，人的角色应当怎样变化？图2：演讲中的核心问题：数学共同体应当如何回应现代 AI 技术及其数学任务能力。陶哲轩把当前局面类比为数学基础危机。20 世纪初，罗素悖论、哥德尔不完备定理等事件迫使数学家重新检查集合、数、无穷和公理基础。那一阶段很动荡，但最终推动数学形成了更明确、更严谨、更标准化的基础框架。他认为，今天 AI 带来的也许不是“数学基础”的危机，而是“数学价值与实践基础”的危机。过去很多默认规则不必说清楚：为什么证明重要，为什么同行评审重要，为什么教材化和传承重要，为什么数学共同体需要慢慢消化结果。AI 的到来让这些隐含价值无法继续隐身。

二、AI 能力假设：先暂时承认一个强版本

演讲中，陶哲轩没有把大量篇幅花在证明 AI 是否已经能做研究数学。他将相关问题形式化为“AI 能力猜想”：在不久的将来，某些 AI 工具会在一定成本、人类监督和成功率下，完成某些领域的研究级数学任务，并达到某种正确性和质量。这个表述中有很多“某些”“一定”“某种”。陶哲轩强调，这些变量如何填充，会产生弱版本和强版本的能力猜想。弱版本可能只是 AI 能辅助解决小问题；强版本则意味着 AI 能在相当范围内高质量完成研究级任务。他的演讲采取一种条件分析：假设一个较强版本为真，数学共同体应该怎么办？这个姿态很关键。它绕开了“AI 到底行不行”的争论泥潭，转而追问：如果 AI 确实在研究数学中变得有用，甚至很强，我们的制度准备好了吗？图3：陶哲轩在演讲中提到 First Proof 作为近期数据点。该项目用受控方式评估前沿 AI 模型与工具链解决研究级数学问题的能力。陶哲轩提到 First Proof challenge。slides 中给出的信息显示，第二批测试在 2026 年 5 月 28 日进行，包含 10 个新的研究级数学问题，4 个 AI harness 参与，结果由专家从正确性和表达两方面评审；其中 7 个问题至少被一个团队以接近发表水准解决，单题计算成本大致在 10 到 1000 美元之间。他并不把这作为最终结论，而是作为一个信号：讨论 AI 与数学时，不能只停留在轶事、社交媒体展示和模型公司宣传上。需要受控评估，也需要区分“能力是否存在”和“这种能力是否值得我们追求”。

三、真正的问题：数学共同体到底想优化什么

如果 AI 能力假设成立，陶哲轩认为下一个问题会变得无法回避：数学共同体的精确目标、目标函数和价值是什么？数学研究当然有很多目标：解决开放问题，发展新理论和新技术，理解世界，建立数学共同体，训练下一代数学家，贡献共享知识网络，创造具有持久审美价值的作品。过去，这些目标通常大体正相关。一个重要问题被解决，往往也会推动理论发展、促进共同体交流、进入教材和课程，最终成为共享知识。图4：演讲中列出的数学研究目标。解决问题只是其中之一，理论建设、共同体建设、训练新人和知识传承同样重要。但 AI 可能改变这种相关性。如果某个指标变得特别容易被优化，例如“解决开放问题的数量”，它就可能挤压其他更慢、更人的目标。陶哲轩用 Goodhart 定律提醒：当一个度量成为目标，它就不再是好的度量。图5：陶哲轩借 Goodhart 定律提醒数学共同体：如果过度优化单一指标，原本相互支撑的数学目标可能发生分离。生成式 AI 的无根基特征，以及 AI 公司和研究竞争中的激励结构，使得数学更容易受到这种风险影响。假如人们只追求“更多结果”“更快证明”“更早宣布”，那么数学可能从共同理解的事业，变成证明文本的生产流水线。

四、以“解题”为例：证明不是终点

陶哲轩选择“解题”作为案例。因为如果 AI 能做研究数学，最直接受到冲击的就是开放问题求解。第一版目标很直观：尽可能多地解决未解问题。但这很快遇到问题。即使在 AI 出现之前，数学界也已经知道，重大猜想周围会出现大量错误证明。只追求解题数量，会制造海量噪声。于是目标需要升级：不仅要生成证明，还要验证其正确性。形式化证明、自动定理证明和 Lean、Rocq、HOL 等证明助手，可能加速这一环节。但陶哲轩追问：如果 AI 生成了一个很长、形式上正确、但没有人真正理解的证明，它对数学意味着什么？因此还需要第三个环节：阐释。一个证明不仅要正确，还要能被数学共同体清楚理解。当前 AI 在表达上有双面性：语法、格式和表面流畅度很强，但常常把平凡部分写得过长，对真正困难或新颖的步骤却轻描淡写，也不擅长给出与文献和思想脉络的高层连接。图6：演讲中强调证明阐释的重要性。问题不只是“证明是否正确”，还包括它能否被共同体理解、学习和吸收。陶哲轩进一步指出，证明中的“摩擦”并不总是坏事。人类作者写证明时，困难部分往往会自然留下痕迹，提醒读者放慢速度，认真消化。过度 AI 润色的证明可能太平滑，把关键难点包装得像常规步骤，反而降低学习效果。这引出了一个更完整的证明生命周期：生成、验证、阐释、发表、消化、经典化。

五、从证明稀缺到证明过剩

在最终版本的目标中，陶哲轩将“解决开放问题”扩展为：生成证明，验证其正确性，清楚地表达，并使其被数学共同体消化、接受，最终进入该领域的确定性理论体系。图7：演讲给出的“最终目标”流程：从开放问题到未验证解、已验证解、清晰写作、共同体接受，再到最终理论化和经典化。这张图是整场演讲的核心。它说明数学研究不是从“开放问题”直接跳到“答案”。中间有许多人类共同体活动：审稿、讲座、讨论、重写、教材化、引用、吸收，以及一代代学生在学习中重新组织知识。如果 AI 只加速前端的证明生成，而后端的人类消化能力没有同步扩展，就会产生阻抗不匹配。陶哲轩称之为“proof indigestion”，可以理解为“证明消化不良”。图8：陶哲轩警告，如果没有制度和文化调整，数学可能从“证明稀缺”进入“证明过剩”，并在验证、写作、评审和经典化环节出现堵塞。这也是文章最值得注意的判断：AI 可能让数学从证明稀缺时代进入证明过剩时代。过去最稀缺的是能解决问题的人；未来最稀缺的可能是能判断、解释、吸收和传承结果的人。数学共同体的瓶颈将从“谁能证明”转向“谁能理解、认证并把它变成共同知识”。

六、陶哲轩的建议：披露、消化与人的责任

陶哲轩在后半部分给出了一组建议。第一，要避免最糟糕情形：作者暗中使用 AI 辅助研究，却因为担心同行批评而隐瞒使用。合理做法是规范化负责任的 AI 使用披露。数学界需要明确什么可以用、怎样声明、哪些环节必须由人承担责任。第二，要降低对“第一个解决问题”的过度强调，提升对证明消化的重视。未来的荣誉与资源分配，不应只奖励证明生成，还应奖励高质量阐释、可靠评审、文献整理、教材化和工具化工作。这些工作过去常常被视为“服务性劳动”，但在证明过剩时代，它们会变得更加核心。第三，要坚持人的正确性责任。即使使用自动化工具，发表数学研究时，论证和结果的正确性、引用完整性、归属准确性仍应由人类作者负责。图9：陶哲轩提出的经验准则：如果作者不能令人信服地作出清晰、专家级、正确且归属得当的报告，那么结果就不应发表。这一准则非常直接。它把数学发表的门槛从“文本看起来正确”拉回到“作者是否真正理解并能向共同体负责”。这对 AI 时代尤其重要，因为未来可能出现大量看似规范、形式正确、但没有人能解释其思想来源和关键机制的论文。

七、对数学教育和研究生态的启示

演讲最后，陶哲轩强调，解题只是数学工作的一个方面。AI 还会影响教学、指导、招聘、基金申请、公众传播等许多环节。每个环节都需要类似分析：我们到底想优化什么？哪些部分应该限制 AI 使用？哪些部分应该主动设计新工作流？图10：陶哲轩的结束思考：数学共同体需要围绕 AI 能力、共同体目标和价值展开开放而诚实的讨论。在教育和训练中，人类方面会变得更重要。学生不能只学会让模型产出证明，而要学会判断证明、理解证明、提出问题、建立理论直觉。AI 可以成为工具，但不应替代数学训练中的核心经验。在研究工作流中，数学界需要主动定义 AI 的最佳实践，而不是被动接受商业工具带来的默认规则。例如，如何记录 AI 参与过程，如何验证 AI 生成证明，如何建设可审计的数学知识库，如何让形式化证明、论文、讲义和数据库相互连接。

八、为什么这场演讲值得 AI 圈也认真读

这场 talk 的意义不只属于数学。它实际上给所有知识生产领域提出了一个通用问题：当 AI 大幅降低“生成成果”的成本后，真正稀缺的是什么？在数学中，答案可能是验证、理解、阐释、共同体接受和经典化。在科学研究中，可能是实验可重复性、因果解释、理论整合和长期可信记录。在 AI 领域本身，也同样如此：模型可以快速生成论文、代码、实验图和 benchmark 结果，但共同体仍需要判断哪些贡献真正可靠、可复现、可积累。陶哲轩的观点不是反 AI，也不是简单拥抱 AI。他更像是在提醒：如果我们不把目标说清楚，工具会替我们定义目标；如果我们只优化可量化的短期产出，就会损伤那些更慢但更珍贵的学术价值。在 ICM 2026 这样一个数学共同体的最高舞台上，这场演讲与王虹、邓熠/邓宇等新一代数学家的获奖共同构成了一个很有象征意味的画面：数学正在进入新的时代，一方面年轻数学家继续以深刻原创工作拓展人类知识边界，另一方面 AI 正迫使整个共同体重新思考“什么才算数学进步”。

资料来源

陶哲轩 ICM 2026 演讲 slides：https://teorth.github.io/tao-web/slides/age-of-ai-icm-2026.pdf 陶哲轩个人主页与 CV：https://www.math.ucla.edu/~tao/ ，https://teorth.github.io/tao-web/cv-long.html IMU 菲尔茨奖名单：https://www.mathunion.org/imu-awards/fields-medal ICM 2026 菲尔茨奖相关新闻与背景：Nature、IHES、新华社/人民网等公开报道。

成为VIP会员查看完整内容

军事防务 · 人机协同 · 反无人机蜂群 ·

7 月 24 日

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

采用编队模式运行的无人机可充分释放无人机系统的效能与潜力。本文针对模拟有人—无人编组防御场景，分析了在面对来袭无人机蜂群攻击时，无人机编队重构所需的时间和空间代价。鉴于防御窗口期有限，必须优化无人机向目标编队各位置的分配方案。本文采用匈牙利算法求解多无人机编队重构优化问题，并通过三维仿真评估了不同编队构型间的转换效能。实验结果验证了所提出的编队重构方案与系统架构集成的可行性与有效性。

图1：多旋翼无人机有人—无人编组在地面装备支援下拦截自杀式威胁、护卫高价值目标的典型场景

近年来，无人机在军事与民用领域的各类应用中得到了广泛部署。例如在民用领域，无人机已应用于公共安全领域，支持体育场赛事、公众集会及游行示威等大型活动的监测，参与自然灾害后的搜救行动，并助力打击环境犯罪与毒品贩运。在军事领域，无人机凭借其在高危环境中无需飞行员涉险、长航时作业及实时数据回传等能力，已成为现代战争的刚需装备，深刻重塑了攻防策略、监视侦察及后勤保障模式。在未来具备“协同交战能力”[1]的作战场景中，有人—无人编组技术将使无人平台能与有人机围绕共同作战目标展开协同。在此背景下，“忠诚僚机”[2]概念应运而生，即智能化、互联化的无人机可在有人机的战术引导与控制下，充当战力与能力的倍增器，未来亦可作为高阶远程操控无人机发挥作用。

鉴于近期频发的无人机袭扰事件[3][4][5]，部署高效的反无人机系统已成为保护高价值资产与重点区域的当务之急。反无人机系统具备探测识别敌对无人机并实施针对性处置以化解威胁的能力。目前学界已探讨多种反制手段[6]，包括激光武器、无线电干扰、信号欺骗及网络攻击等非物理毁伤方式，以及弹丸打击、巡飞弹、搭载捕获网的拦截无人机[7]，乃至训练鹰隼[8]等物理拦截方式。协同蜂群式无人机攻击极易饱和防御体系，因此研发低成本或等效成本的应对方案以瓦解此类威胁，对维持未来数十年攻防平衡至关重要。近年来，多旋翼飞行器凭借其灵活机动性与低成本优势，相关研究及产品迭代日益聚焦于此，有力推动了技术创新，使其成为构建多机协同反无人机系统的可行载体。

本文以文献[2]的研究为基础，针对未来有人—无人编组防空场景下对抗蜂群攻击的战术防御编队，分析了编队重构的性能表现。通过采用集中式优化规划方法，对提出的编队重构方案进行了实践性评估，实验结果验证了该方案在所设计的系统架构中能够实现无人机编队的快速高效自适应调整。

本文后续章节安排如下：第二章综述无人机编队控制与防御策略的相关文献；第三章阐述具体作战场景；第四章介绍系统架构与研究方法；第五章详述实验设计与结果分析；第六章总结全文并展望未来研究方向。

成为VIP会员查看完整内容

专知，提供专业可信的知识分发服务，让认知协作更快更好！

信息物理系统的技术进步为灾害管理与救援行动开辟了新路径。无人机在此领域的应用前景尤为广阔。无人机，尤以四旋翼机型为主，虽体积紧凑，但载荷能力受限。单机难以覆盖全域，故多机协同或无人机集群技术应运而生，以模块化、均衡化方式统筹整体载荷。本研究围绕无人机相关课题展开系统性探讨，重点聚焦四旋翼无人机，深入剖析其机型分类、飞行策略、通信协议、系统架构及控制技术，继而引申至自然界与无人机系统中的集群行为机理。文中详细探讨了集群行为特征及若干集群优化算法，并对集群架构与无人机网络间通信机制给予了特别关注。在灾害管理场景中，无人机集群网络需执行大范围搜救任务，因而亟需高效的路径规划算法支撑。本研究系统梳理了现有路径规划算法的优劣特性，并基于“领导者-跟随者”技术深入探讨了集群网络的队形维持问题。此外，采用弗里斯公式与地面射线反射模型构建了无线通信路径损耗模型，据此完成链路预算编制，并通过仿真实验揭示了通信链路性能随距离变化的规律。

问题陈述
摘要
引言
无人机简介
无人机的控制
阵风对无人机的影响
自然界中的集群行为
群体智能
无人机集群
无人机网络中的集群架构
无人机集群中的通信
现有路径规划技术
现有路径规划技术的比较
领导者-跟随者策略
无线通信中的路径损耗
噪声信道下的通信
链路预算分析
通信链路性能随距离的变化
未来工作
结论

成为VIP会员查看完整内容

博士论文 · 强化学习 ·

7 月 28 日

博士论文 | 从算法到基础模型：强化学习的统一视角

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

博士论文 | 从算法到基础模型：强化学习的统一视角

导读

强化学习正在经历一次范式扩展。经典强化学习关心智能体如何在环境中通过试错最大化长期回报；多智能体强化学习进一步引入竞争、协作、均衡与激励；而在基础模型时代，生成模型、扩散模型、视频世界模型和长时序记忆又开始成为决策系统的一部分。Zihan Ding 的 Princeton 博士论文《Reinforcement Learning: From Algorithms To Foundation Models》正是围绕这条主线展开：从算法基础走向基础模型，从博弈中的策略学习走向能建模世界、生成未来、服务规划与控制的新型 RL 系统。这篇论文不是单一方法论文，而是一组相互衔接的研究：前半部分研究游戏中的多智能体 RL，包括两人零和博弈、复杂视频格斗环境和多人一般和博弈；后半部分研究基础模型时代的 RL，包括扩散世界模型、Consistency 模型作为策略、少步视频生成的 RL 后训练、交互式视频世界模型，以及带记忆的长时序世界模型。如果要用一句话概括，论文试图回答的是：当强化学习从小规模 MDP 走向复杂交互环境和生成式基础模型时，算法、模型和系统应如何共同演化？这也是当前智能体研究、世界模型研究和生成式 AI 后训练共同面对的问题。

论文信息

论文题目：Reinforcement Learning: From Algorithms To Foundation Models 作者：Zihan Ding 学校：Princeton University 院系：Department of Electrical and Computer Engineering 导师：Chi Jin 论文时间：2026 年 5 月 arXiv：2607.17560v1 链接：https://arxiv.org/pdf/2607.17560

一、强化学习的统一框架

论文第一部分先回到强化学习的基本问题：智能体与环境交互，基于状态选择动作，环境返回下一个状态和奖励，智能体通过策略优化最大化长期累计回报。这个框架看似简单，却可以承载从游戏、网络系统到机器人控制、视频生成和世界模型的多种问题。

在单智能体环境中，核心对象包括 MDP、策略、价值函数、Bellman 方程、值迭代和策略梯度。论文用这些内容建立统一语言：状态转移描述世界如何变化，奖励定义目标，价值函数评估未来收益，策略优化则把智能体推向更高回报。但真实智能系统往往不只面对一个固定环境。其他智能体的行为会改变环境，奖励函数可能彼此冲突，最优策略也不再只是单个智能体的最优，而要考虑 Nash 均衡、Markov game、potential game 等博弈结构。论文由此自然进入多智能体强化学习：从“如何最大化自己的回报”扩展到“如何在其他策略也在变化的系统中学习稳定、不可轻易被利用的行为”。这也是论文标题中“From Algorithms To Foundation Models”的第一层含义：RL 先要有清晰的算法与博弈基础，之后才能进入更复杂的基础模型时代。

二、游戏中的强化学习

论文第二部分聚焦游戏场景。游戏是强化学习的重要试验场，因为它同时具备明确目标、可控环境、多样策略空间和可重复评测。作者先研究两人零和 Markov game，提出 Nash-DQN 与 Nash-DQN-Exploiter，将单智能体 DQN 与 Nash 均衡求解思想结合，试图在连续状态和函数逼近条件下学习更难被 exploit 的策略。 Nash-DQN 的关键在于，不再只学习单个动作价值，而是在每个状态下近似一个两人博弈的 Q 矩阵，并基于 Nash 策略进行行动选择。Nash-DQN-Exploiter 则额外训练一个利用者，让主智能体暴露弱点并被迫改善。这种设计把探索过程与对抗压力结合起来：智能体不是在随机扰动中被动探索，而是在对手不断寻找漏洞的过程中修补策略。论文随后将这一思想推向更真实的游戏环境，构建 FightLadder 基准。相比棋盘或小型表格博弈，格斗游戏具有像素输入、连续动作节奏、复杂时序依赖和强对抗性，更接近真实多智能体系统中的非平稳学习挑战。

FightLadder 的意义不仅是“多了一个游戏环境”，而是把 fully competitive two-player setting 做成可系统评测的研究平台。论文强调，现有多智能体基准很多偏合作或小规模，而完全竞争环境中，策略之间的可利用性、种群训练、Elo 分布和 payoff matrix 都是重要指标。一个真正好的竞争型智能体，不能只在固定对手上得分高，还要在面对新的 exploiter 时保持稳健。

三、从零和到一般和

在两人零和游戏中，一个玩家收益的增加对应另一个玩家收益的减少，Nash 均衡有相对清晰的结构。但现实系统往往是多人一般和博弈：不同智能体既可能冲突，也可能部分一致；整体系统目标可能是公平性、稳定性、吞吐或资源效率，而不是某个玩家的单独胜负。论文第五章以网络负载均衡为例研究多人一般和环境。每个负载均衡器只能看到局部观测，需要把请求分配到服务器，同时与其他负载均衡器共同影响系统延迟和公平性。这一问题天然具有部分可观测、多智能体耦合和实时决策属性。

这一章的理论支点是 Markov potential game。它把多智能体的局部激励与一个全局 potential function 联系起来：虽然每个智能体只做自己的局部更新，但如果激励结构满足某些条件，整体系统可以被一个全局势函数刻画。这为分布式 RL 提供了桥梁：不必让每个智能体掌握全局信息，也能通过合适的奖励设计和潜在博弈结构逼近稳定解。从公众号读者角度看，这部分最值得关注的是“RL 如何进入系统工程”。网络负载均衡并不是漂亮的 benchmark，而是具有延迟、吞吐、公平性和观测限制的真实基础设施问题。论文把一般和博弈、分布式 actor-critic 和系统指标结合起来，展示了多智能体 RL 从游戏走向真实系统的一种路径。

四、基础模型时代的世界模型

论文第三大部分进入 foundation models。这里的关键变化是：RL 不再只从环境交互中学习，也可以借助预训练生成模型和世界模型。基础模型提供先验，世界模型提供未来预测，策略优化可以在“想象出来”的轨迹中进行。第六章提出 Diffusion World Model。传统 model-based RL 常用一步动力学模型反复 rollout，但长 horizon 下误差会逐步累积。扩散世界模型则试图一次建模多步未来轨迹：给定当前状态、动作和目标回报，模型生成未来若干步状态与奖励，从而降低逐步预测带来的 compounding error。

论文把 DWM 接入离线 RL：先用离线数据训练扩散世界模型，再用它生成 imagined data 或做 value expansion，辅助 actor-critic 学习。这里的核心优势有两点。第一，扩散模型能表达复杂、多模态的未来轨迹分布，不必把未来压成单一确定性预测。第二，它能够直接生成多步未来，使规划和价值估计更少依赖逐步滚动。这部分与今天“世界模型 + 智能体”的讨论高度相关。一个智能体如果能在内部模拟未来，就可以在真实交互成本很高时进行离线规划；而生成式世界模型的作用，正是把环境动态、奖励结构和长期结果压进一个可采样的模型中。

五、生成模型作为策略

第七章讨论 Consistency Models as Reinforcement Learning Policy。扩散策略能够表示多模态动作分布，但多步去噪带来较高训练和推理成本。Consistency 模型则试图用更少采样步骤得到高质量动作，因此适合作为更高效的策略类。论文设计了 Consistency-BC 和 Consistency-AC。前者用于行为克隆，后者把 consistency policy 嵌入 actor-critic 框架，并用 BC 正则避免生成离线数据分布之外的动作。实验显示，Consistency-AC 在部分任务上略低于 Diffusion-QL，但在计算效率上更有优势，并能在 offline、offline-to-online 和 online 设置中形成可行的权衡。这一章的重点不只是“换一种策略网络”，而是把生成模型的表达能力带入 RL 策略空间。传统高斯策略对多模态行为建模较弱；扩散和 consistency policy 能更自然地表示“同一状态下多个合理动作”。这对离线 RL 尤其重要，因为离线数据常由多个行为策略混合而来，动作分布本身就是多模态的。

六、RL 后训练少步视频生成

第八章将 RL 与视频生成结合，研究 few-step video generation。扩散视频模型通常生成质量高，但推理步数多、成本高；少步生成器速度快，但可能牺牲质量、多样性或奖励对齐。论文提出 DOLLAR，将 variational score distillation、consistency distillation 和 latent reward fine-tuning 结合起来，使少步视频生成器在效率和质量之间取得更好平衡。

这里的 RL 思想体现在 reward fine-tuning：视频生成结果不只要拟合训练分布，还要满足美学、文本一致性、运动质量或人类偏好等奖励指标。直接在像素空间通过大型奖励模型反向传播会非常昂贵，因此论文引入 latent reward model，在潜空间中近似奖励信号，从而降低显存和计算负担。这一章说明，RL 在基础模型时代的角色正在变化。它不只是控制智能体在环境中拿奖励，也可以作为生成模型的后训练工具，用奖励模型把少步生成器推向更符合偏好的输出分布。

七、视频世界模型与交互式生成

第九章研究 Video World Model，重点是交互式长视频生成。普通视频生成模型往往给定提示后生成一段视频，但世界模型需要更强的交互性：动作会影响未来观察，历史状态需要被记住，长期生成还要避免误差累积。论文提出 VRAG，即 Retrieval Augmented Video World Model with Global State。它在视频生成中引入全局状态条件和记忆检索机制：历史帧、动作和状态被保存在 buffer 中，模型通过相似性检索获取相关记忆，再作为上下文参与 DiT block 的自注意力。

VRAG 的核心问题是长期一致性。视频世界模型如果只依赖有限上下文，很容易在长时间生成中忘记早期状态；如果简单扩大上下文，又会带来训练和推理成本。检索增强提供了折中：不是把所有历史都塞进上下文，而是动态取回对当前生成最有用的记忆。这与 LLM 中的 RAG 有相似精神，但对象从文本变成了视频世界状态。对于具身智能、游戏 agent、长时序模拟和交互式视觉环境来说，模型不仅要“看起来真实”，还要在动作干预下保持可控和连贯。

八、带记忆的长时序世界模型

第十章继续推进长期世界建模，提出 Recurrent Autoregressive Diffusion。普通 DiT 视频模型擅长空间与局部时序建模，但长序列生成需要一种能跨越窗口传递信息的记忆机制。RAD 在 DiT block 中加入 RNN memory block，并结合 spatial attention、temporal attention 与 recurrent state，让模型在生成长视频时保留全局记忆。

论文还比较了 chunk-wise 与 frame-wise 两种自回归方式。chunk-wise 把视频分块处理，效率更高但时间依赖更粗；frame-wise 逐帧递归，能更细粒度地传递隐藏状态。为了提高训练效率，论文还设计 hidden state prefetch，使 frame-wise RNN 可以更好地并行注意力计算。

这部分的长期意义在于：世界模型不是短视频生成器，而应成为能持续滚动、记忆过去、响应动作并预测未来的动态系统。对于通用智能体来说，记忆不是额外插件，而是世界建模架构的一部分。

九、总结

这篇博士论文的贡献可以分成两条线。第一条线是算法与博弈：从单智能体 RL 出发，进入两人零和博弈、竞争型视频游戏和多人一般和系统，强调策略学习必须面对非平稳性、均衡、可利用性和分布式激励。第二条线是基础模型与生成式世界建模：从扩散世界模型到 consistency policy，再到少步视频生成、VRAG 和 RAD，强调预训练生成模型可以成为规划、控制、策略表示和长期模拟的核心组件。更重要的是，论文把强化学习放在了一个更大的智能系统图景中。经典 RL 提供目标驱动的适应机制，博弈论提供多智能体交互的稳定性语言，基础模型提供强先验和生成能力，世界模型提供面向未来的内部模拟。未来的智能体很可能不是单靠其中某一块，而是在这些组件之间形成闭环：观察世界、建模未来、用奖励或偏好调整行为，并在多智能体环境中保持稳健。从研究趋势看，这篇论文也提示了几个值得继续关注的方向：多智能体 RL 如何在真实系统中稳定落地；生成模型策略如何在表达能力和推理效率之间平衡；视频世界模型如何从“生成好看视频”走向“可交互、可控制、可长期一致的环境模拟”；以及 RL 后训练如何成为基础模型对齐、控制和智能体化的重要机制。强化学习的下一阶段，或许不再只是寻找更强的单一算法，而是把算法、生成模型、世界模型、记忆和多智能体系统整合成能够长期行动的基础设施。这正是这篇博士论文最值得读的地方。

成为VIP会员查看完整内容

专知，提供专业可信的知识分发服务，让认知协作更快更好！

尽管无人机（UAV）及其在战区中的部署并非新生事物，但即便是最细微的技术升级，也会促使其指挥控制、作战能力及所提供优势的认知日新月异地演进。此外，在海战领域，关于无人机对海军平台威胁的广泛共识往往隐于背景之中，被媒体对无人水面艇（USV）的更大关注所掩盖。本文探究无人机对当代海军平台的威胁，以增进对相关风险的理解，推动对不断变化战术与程序的诠释，并对未来反无人机（CUAV）发展提供简明而充分的概览。论文采用分析-综合方法梳理相关科学文献，勾勒出令无人机对海军平台构成威胁的关键属性。继而，基于权威国际媒体所报道的近数年涉及无人机的重大海军事件，以黑海与红海为重点，呈现时间脉络。这些事件按战术层面分类，并进一步与在这些作战战区已采用的已知无人机交战战术相关联。此外，论文描述了在俄乌战争与胡塞武装袭击中得到实战验证的最突出无人机型号及其海上水面作战能力。最后，论文总结无人机属性、运用战术与新锐趋势，以对水面海军力量面临的即时风险、这些风险的潜在演变及对抗措施的发展提供整体性审视，同时指明进一步研究方向。

关键词：无人机（UAV）；海上水面作战；海军平台威胁；俄乌战争；胡塞袭击

成为VIP会员查看完整内容

专知，提供专业可信的知识分发服务，让认知协作更快更好！

博弈论为分析涉及多决策主体的社会性与竞争性场景提供了逻辑严谨的方法论，能够探究参与者独立及相互依存的决策行为。本研究提出了一种处理指派问题及确定性、不确定性与风险场景下决策问题的创新方法。新方法与传统方法相结合，以彰显其实用性与高效性。研究将两类决策划分为对称与非对称类型，并从博弈论视角对二者进行了探讨。此外，通过将所得结果与常规方法进行比较，验证了所提工具的优势。研究还考察了技术的收敛特性，阐明了不确定性决策模型与指派问题中收敛速率的提升机制。借助MATLAB验证了求解的最优性，并对对称与非对称情形下的解进行了可视化呈现。综上所述，本文证实所提方法能够通过融合博弈论与决策理论，有效解决涉及确定性、不确定性与风险的各类问题。

关键词：指派问题；博弈论；确定性决策；不确定性与风险决策；新提案方法；MATLAB编程

在现实世界的优化与决策过程中，指派问题是一项基础性挑战，其核心在于实现资源对活动的有效配置，以最大化效率或最小化成本。该问题广泛应用于经济学、金融学、军事行动及生产规划等领域，在这些领域中，资源的合理配置对于达成预期目标至关重要。与此同时，决策过程——尤其是在模糊情境下——亦举足轻重，决策论等方法为理性决策提供了系统化的框架。

决策、优化与运筹学领域的研究成果浩如烟海，深刻影响了我们对复杂问题的认知及创新解决方案的构建。本引言旨在对推动基于风险与不确定性决策优化方法及运筹学实际应用的重要文献与方法进行全面综述，为后续研究奠定基础。

本文献综述始于对指派问题复杂性的深入探讨，梳理了在基于风险与不确定性决策领域做出重要贡献的新兴方法及其跨领域实践应用。综述旨在探索新方法、决策理论的融合路径，以应对复杂的决策难题。Basirzadeh提出的“单一指派法”[1]突破了传统方法的局限，通过对比分析验证了其在效率与效能上的提升，堪称该领域的标杆。同样，Afroz与Hossen[2]提出的新颖方法论展现了优化与决策领域的创新思路。Rai、Rai与Khan[3]亦贡献了优化决策领域的新方法，推动了持续创新与改进的文化。

Seethalakshmy与Srinivasan[4]的论文提出了解决最大化指派问题的新途径，凸显了以目标最大化为导向的优化方法进展。Goel与Mittal[5]的《运筹学》及Taha[6]的《运筹学导论》等经典著作，则为运筹学方法论、应用实践及决策过程的底层理论构建了基石。这些著作是优化与决策领域的奠基石，其蕴含的宝贵洞见在学术界与实务界均产生了深远影响。

此外，诸如Kumar与Deepa[7]在物理与社会科学领域的实际应用与案例研究，弥合了理论与实践的鸿沟。这些应用重申了优化方法在处理各类复杂指派任务中的适用性。Kumar与Deepa[7]提供的指派问题实际应用范例，彰显了优化方法在物理与社会科学中的实用价值，其工作实现了理论与实践的有机结合，论证了优化方法的实际效能。Mishra[8]对各种运输问题求解方法的剖析，为物流领域运输问题的优化技术有效性提供了见解。在全球联系日益紧密的当今世界，高效运输网络对经济与社会发展至关重要，Mishra的研究因而具有显著的现实意义。

在优化与运营管理的实践语境中，基础性研究对于破解难题至关重要。Votaw与Orden[9]的经典著作《人员指派问题》，为理解线性不等式与规划提供了重要信息。本综述深入探讨了此类开创性文献，它们构成了现代人员配置决策与优化研究的基石，如Chi-Jen与Wan-Ting[10]提出的机会成本法或匈牙利算法。MATLAB等技术工具的引入，进一步提升了优化结果的准确性与可靠性，增强了决策过程的稳健性。

优化与决策领域持续发展，Artikis与Artikis[11]等学者的贡献尤为显著。他们的研究成果涵盖了决策的复杂性，推动了决策方法的完善。

探讨风险与不确定性下决策过程的文献，为我们理解企业如何在复杂环境中生存提供了阶梯。Mergio的研究深入阐述了如何在不确定时期做出明智决策，为战略管理中的有效决策与策略制定提供了宝贵见解。本文献综述旨在探索决策、优化与运筹学之间错综复杂的关联，将丰富的学术成果与方法论融会贯通。综述强调了决策技术的发展、优化方法的演进，以及运筹学在多领域的实际应用。

通过批判性审视既往研究、分析当前趋势并展望未来需求，本综述力求为投身于决策、优化与运筹学挑战的研究者、从业者及决策者提供深刻且可行的洞见。风险与不确定性决策、基于复杂问题的优化策略，以及运筹学的实践应用，将是本文详细探讨的核心主题，旨在全面勾勒指派问题的研究图景。通过综合各类研究脉络、方法论与应用实践，本综述旨在厘清决策面临的难题，展示优化方法的进展，并阐释运筹学在现实场景中的实践意义。最终，本综述旨在提供有价值的信息与见解，以启迪并指导决策者在多极化的决策、优化与运筹学环境中从容前行。

决策论是旨在多种可行方案中选出最优决策的过程。决策者依据确定性程度评估并遴选最佳决策，该程度范围涵盖从完全确定（正向）至完全不确定（负向），其间包含中度风险因素。做出新决策的首要动因，通常源于个人或组织对现状的不满，并存在改善现状的可行选项。对决策者而言，定量方法依赖于数据、事实、信息与逻辑。

该方法要求在系统化框架内客观、科学地界定、分析问题并求解。决策论可视为对所有影响决策问题的因素进行逻辑与定量分析的程序，它辅助决策者运用多种行动方案与结果来分析决策问题。特定自然状态与行动方案组合的加权收益，可通过该状态下的收益乘以给定结果的发生概率获得。指派问题研究的是数量相等的主体与任务之间的最优匹配，其中sij表示主体i完成任务j所产生的成本。尽管每个主体均可完成任何任务，但绩效差异导致成本不均。目标在于找到一种特定的主体-任务组合，使总成本最低。

研究目标 本研究旨在检视并对比确定性、不确定性与风险条件下的不同决策模型，并提出一种创新方法，以有效解决竞争性决策环境下的指派问题与博弈论相关问题。

研究方法 本研究首先回顾现有决策理论，继而将决策场景划分为确定性、风险与不确定性三类。针对每类条件，分别应用期望货币值、期望机会损失、拉普拉斯准则、赫维茨准则及极小极大后悔值等标准决策准则。此外，运用匈牙利算法等优化技术求解指派问题，并利用博弈论分析竞争性场景。最后，引入一种新方法，并通过对比传统模型与所提模型的结果来评估其有效性。

成为VIP会员查看完整内容

专知，提供专业可信的知识分发服务，让认知协作更快更好！

防空作战的核心特征在于从目标探测到毁伤的全交战链各环节均存在不确定性。传统确定性分析往往忽视探测误差、分类不确定性、系统可用性及武器效能的随机属性。本研究构建适配雷达-指挥-火力单元循环的防空交战流程概率框架，各决策节点与状态转移均采用适配的概率分布表征，分布参数由假定或公开报道的作战性能指标估算得出。通过Python环境下融合多类概率分布的蒙特卡洛仿真，模型可评估不同系统配置下的目标毁伤总成功概率。研究结果揭示了交战链条对探测可靠性、识别准确率及导弹杀伤概率的敏感性，可为系统规划人员与作战分析人员提供重要决策参考。

关键词：防空；概率建模；蒙特卡洛仿真；交战链；随机分析

防空系统构建起抵御敌方空袭的分层防护机制。此类系统的作战效能取决于雷达探测、指挥中心分类、火力单元目标分配及导弹发射末端交战等一系列协同动作的连贯执行。上述各环节均受技术局限、环境条件及人为决策影响，存在固有不确定性。

传统效能评估多采用确定性成功率指标，而概率视角的分析方法更能贴合防空作战的实际运行规律。本文提出的建模方法通过将各流程节点关联对应概率分布，精准刻画交战流程的随机属性，由此可实现目标毁伤总成功概率的估算，而非依赖简化的单点估值。

本研究的核心贡献在于将防空交战流程系统性转化为透明可修改、适配场景化实验的可执行随机依赖模型。相较于确定性的杀伤链概率连乘方法，本框架显式表征探测、识别、武器分配、战备状态、交战、制导及末端毁伤之间的流程依赖关系；同时区分串行与并行依赖逻辑，便于分析人员定位概率衰减的累积节点，明确冗余设计对作战效能的提升价值。

本文基于前期研究[1]拓展深化，该研究针对防空流程采用常微分方程（ODE）与离散事件仿真（DES）构建确定性时间模型。研究亦部分借鉴题为《包含连续探测系统的作战仿真框架》的文献[2]，重点参考其中关于探测概率的相关论述。

具体而言，本文主要贡献包括：

典型防空流程的形式化事件依赖表征（第2章）；
支持可配置概率分布的可执行蒙特卡洛实现（第3章）；
基于解析交叉校验与确定性基线比对的结果验证流程（第4章）；
面向标称、饱和及电子战降级三类场景的案例研究，揭示概率衰减在交战链中的传导规律（第4、5章）。

本研究的目标包含三方面：

依据标准工作流程（雷达→指挥所→火力单元），设计并阐释防空交战流程的概率模型。
基于Python平台实现该模型的蒙特卡洛仿真，针对不同场景获取贴近实战的成功概率估值。
通过与解析闭式可靠性计算结果及确定性连乘基线的比对，完成模型实现的有效性验证。除上述核心目标外，本研究亦旨在论证概率建模技术对不确定性、变异性起决定性作用的复杂防务场景的适用性，例如空军基地防空[3]、防御体系结构优化[4]等领域。

成为VIP会员查看完整内容

军事防务 · 美以伊冲突 ·

7 月 24 日

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

2026年2月28日，以色列与美国针对伊朗伊斯兰共和国发动了代号为“咆哮雄狮”（RL）与“史诗狂怒”（EF）的军事行动。在超过40天的作战周期内，联军出动近1.9万架次，打击约2.4万个目标，期间未发生重大地面交战，亦未得到伊朗国内有组织的武装反对力量响应。这是自1945年以来首次对“最大化空中力量”理论的实尺度检验——即主张仅凭空中力量即可推翻一个地区性大国政权。此次尝试未能达成其核心政治目标。4月8日的停火协议标志着美以双方野心的隐性收缩。然而，该战役绝不可简单视为彻底失败：其执行过程在多战线展现了前所未有的空中力量掌控力，因而亟需对当代空中力量的能力与结构性局限进行审慎剖析。

联军的制胜理论建立在“斩首促政权更迭”之上，其支撑要素包括美以战略协同、伊朗相对衰弱，以及受2025年6月“午夜锤击”与2026年1月“绝对决心”行动表面成功助长的战略冒进心态。该理论植根于以色列独特的战略文化——偏好“消灭”而非“压制”，强调情报主导的目标打击——而非古典空中力量理论教条，并汲取了2006年黎巴嫩战争冲击后以色列空军二十年的成熟经验：工业化动态目标打击、人工智能（AI）辅助杀伤链、四倍架次出动率，以及借助“麻雀”空射弹道导弹与F-35I“阿迪尔”战机实现的远程打击能力。

战役进程既受联军规划驱动，亦深受伊朗反制战略塑造。开局三板斧（斩首、夺取制空权、先发制人解除武装）实施精准度罕见。但伊朗自2005年起耐心构筑的“马赛克防御”体系吸收了初始冲击，实现了加固指挥结构的快速重构，并通过针对海湾基地的水平升级报复及代理人网络施加成本。联军被迫调整用力方向，从最初造成政治瘫痪的逻辑滑向消耗战，进而转向其制胜理论原本排除的胁迫逻辑。

由此可提炼出三项贯穿性教训。其一，“史诗狂怒”/“咆哮雄狮”应被视为始于2024年4月（甚或更早的“10·7”袭击）的宏观战役中的一个章节，其间包含多个“以打塑势”阶段。其二，即便面对一体化防空系统（IADS）已遭两轮攻势削弱的中等装备对手，完全制空权仍遥不可及。可实现的仅为有条件优势，依赖持续的防空压制（SEAD）行动，且局限于特定高度层；低空层面临短程与红外系统挑战，前沿基地仍易遭单向攻击（OWA）无人机及弹道导弹威胁。其三，现代高强度空中战役现已受制于齐射对抗的工业可持续性：产能、弹药库存深度及高低搭配的效应器组合，其重要性不亚于平台性能——而当前西方预算与工业架构短期内无法解决这一运算难题。

因此，对“史诗狂怒”/“咆哮雄狮”的评判宜悬置。五项既定目标中，政权更迭失败；核计划与弹道导弹能力瓦解属部分成功，但多个设施内仍隐匿的440公斤高浓铀问题悬而未决；伊朗伊斯兰共和国海军的摧毁基本达成；伊朗地区代理人网络的瓦解失败，停火时真主党、胡塞武装及伊拉克民兵仍保持活跃。出于经济必要性追加的“重开霍尔木兹海峡”目标未能实现，停火一月后原油交易价仍高于100美元/桶，远高于战前70美元水平。

对欧洲空军而言，启示直接而明确，且无关伊朗战区与欧洲利益的关联性。其逻辑在于将“史诗狂怒”/“咆哮雄狮”的参数投射至针对俄罗斯的高强度冲突假设场景——且此场景下已无法预设美国的战略后方支援与能力填补。三大硬伤尤为突出：其一，面对量级完全不同的俄罗斯一体化防空系统（IADS），欧洲防空压制（SEAD）能力及反辐射弹药储备严重不足；其二，欧洲现有库存与“史诗狂怒”/“咆哮雄狮”40天消耗量之间存在一至两个数量级的差距；其三，以少量先进平台为核心的模式已然过时，必须让位于完整的能力集合——涵盖防区外与穿透性效应器、多层防空体系、持续情报监视侦察（ISR）能力，以及按消耗节奏重建库存的工业基础。当今无一欧洲国家空军具备此等能力，亦无任何欧洲联军具备其总和实力。构建此能力的成本将极为高昂。而若继续沿用适配1990年代远征行动的空中模式迎战未来十年，参照“史诗狂怒”/“咆哮雄狮”的经验，代价将更为惨重。