在日益复杂和数据饱和的威胁环境中,人工智能正迅速重塑各国政府处理国防、安全和作战态势感知的方式。随着现代冲突及人道主义任务愈发依赖无人机、传感器和自主系统,能够在战术边缘处理情报的人工智能赋能平台,对于在对抗性或通信受限环境中加速决策、加强部队保护及保持作战效能正变得至关重要。在此军事现代化和技术快速列装加速的背景下,美国安全专业集团有限公司(Safe Pro Group Inc.)宣布,将在美国陆军于德克萨斯州胡德堡举行的“接触转型2.0自主突破”活动中,在通用动力任务系统公司的GeoSuite平台上演示其集成人工智能能力。此次演示将展示安全专业公司人工智能驱动的导航、观察与探测引擎的输出,该引擎已集成到GeoSuite中,作为陆军耗资10亿美元的“接触转型2.0”计划的一部分,该计划旨在与士兵直接快速装备和测试先进技术。
人工智能在国防行动中不再是一个新兴概念,正迅速成为塑造军队如何保持作战态势感知和应对不断演变威胁的核心能力。现代冲突越来越多地涉及复杂环境,传统决策流程无法跟上来自无人机、传感器、通信网络和情报源的海量涌入数据。人工智能赋能的态势感知平台通过自动化分析和实现实时洞察来应对这一挑战,从而提升战术和战略成果。美国国防部的数据、分析与人工智能采用战略强调了整合人工智能以提升所有领域决策优势和战备状态的重要性。
推动这一转变的最重要进展之一是向基于边缘的人工智能系统转移。边缘系统允许直接在设备上或作战环境附近进行分析,而非将原始数据传输到集中处理中心。这减少了延迟,并确保即使在通信可能降级或中断的对抗环境中,可操作情报仍然可用。战略与国际研究中心的分析师指出,战术边缘人工智能能够实现更快的反应时间,并提高高威胁场景下的韧性。
人工智能驱动的态势感知日益增长的重要性也反映了更广泛的地缘政治和技术趋势。军事规划者日益优先考虑自主性和人机组队,使得人员能够专注于战略决策,而人工智能则处理重复性或数据密集的分析任务。这种转变提高了任务效能,同时减轻了在复杂环境中作战士兵的认知负荷。先进的人工智能模型可以识别异常、分类威胁并提供预测性见解,帮助指挥官预测事态发展,而非仅仅被动应对。
除了传统的作战行动,人工智能赋能系统正在成为人道主义任务和灾难响应的关键工具,可自动化分析航空影像以提供更快速的评估和可操作的见解。德克萨斯农工大学的研究人员正利用人工智能将无人机影像转化为快速灾难响应地图,显著加快了飓风和洪水后的损害评估,这项能力在分秒必争的时刻可以拯救生命和资源。使用航空影像的自动化变化检测系统也已被部署,以快速识别受自然灾害影响的区域,帮助确定救援和救灾工作的优先顺序,同时减少人工工作量。与此同时,人道主义扫雷组织正在试点利用人工智能辅助分析无人机和卫星图像,以探测战争遗留爆炸物并确定需优先清理的受污染土地,从而在冲突后环境中实现更安全、更高效的作业。将人工智能危险识别与机器人平台相结合的项目已在试点人道主义任务中成功识别了地雷和未爆弹药,这说明了人工智能驱动的探测、测绘和作战可视化工具如何成为跨越国防和人道主义目标的现代安全基础设施的关键组成部分。
美国陆军的“接触转型2.0”计划代表了向更快技术采用和野战试验的战略转变。该计划是一项旨在持续至2027财年的多年期工作,目标是通过将先进技术直接交到作战部队手中,加速其开发、测试和部署。通过弥合行业创新与战场应用之间的差距,该计划有助于确保新兴能力能够在进行全面采购决策前,在现实场景中得到评估。
传统的国防采购流程通常涉及漫长的开发周期,这可能延迟新技术的引入。“接触转型”等计划旨在通过实现快速原型设计和与士兵一起进行迭代测试来克服这些挑战。陆军的现代化工作强调通过加速将自主系统和先进传感器等新兴技术集成到作战环境中,以适应快速变化的战场,这反映了提升战场感知和决策速度的更广泛推动。
胡德堡的“自主突破”活动汇集了行业团队和作战单位,为在作战相关条件下集成技术提供了机会。此类协作环境使开发人员能够根据实战反馈完善解决方案,同时帮助士兵熟悉可能塑造未来任务的新兴工具。“接触转型”的另一个关键方面是其对互操作性的强调。现代军事作战依赖于将无人机、机器人以及指挥控制平台等多样系统集成到统一的作战框架中。
NODE人工智能处理系统增强决策支持
安全专业公司的导航、观察与探测引擎旨在直接在战术边缘提供实时情报,通过先进的人工智能驱动分析提供增强的态势感知。该引擎基于公司拥有专利的安全专业物体威胁探测平台构建,集成了机器学习和计算机视觉技术来分析图像并生成可操作的见解,无需依赖持续的云连接。
导航、观察与探测引擎的一个定义性特征是其本地处理数据的能力,即使在通信基础设施有限或不可用的环境中,也能让现场人员获得实时威胁探测和测绘能力。这项能力对于在偏远或对抗区域进行的军事行动尤为重要,在这些区域保持持续连接可能无法实现。通过将人工智能直接嵌入平台,导航、观察与探测引擎减少了延迟并确保更快的决策周期。
安全专业物体威胁探测平台能够利用从各种无人机收集的图像,自动探测和分类爆炸物威胁及其他危险。据公告称,该系统将原始视频转换为高分辨率二维和三维地理空间模型,可在作战团队之间快速共享。这种将视觉数据转化为结构化情报的过程,使指挥官能够更好地理解作战环境并识别潜在风险。
凭借一个包含数百万张已分析的真实世界图像和数千个已识别威胁的专有数据集,安全专业公司已开发出一个支持持续完善探测算法的知识库。通过参与“接触转型2.0”,旨在展示导航、观察与探测引擎如何能在诸兵种联合突破、机动作战、部队保护和人道主义扫雷等任务中提供决策支持数据。
用于战术作战态势感知的GeoSuite集成
通用动力任务系统公司的GeoSuite平台是一个全面的战术态势感知工具包,旨在支持任务规划与执行。GeoSuite为战术领导者提供了一个直观的、以地图为中心的界面,该界面集成了多媒体工具、先进规划能力和针对作战环境定制的可视化功能。
该平台旨在使指挥官能够在统一的环境中分析、规划、演练、执行和审查作战行动。这种集成方法使用户能够可视化不断演变的战场条件并更有效地协调行动。GeoSuite专注于快速传播关键信息,有助于确保决策者能够在需要的时间和地点获取相关情报。
GeoSuite的一个关键优势是其能够在“断联、间歇、受限”环境中运行。这些条件反映了真实的作战场景,其中连接性可能受地形、电子战或基础设施限制的影响。通过在此类条件下保持功能,该平台支持有韧性的任务执行。
将安全专业公司的导航、观察与探测引擎系统集成到GeoSuite中,通过引入人工智能驱动的威胁探测和自动化测绘能力增强了该平台。导航、观察与探测引擎生成的数据馈送到GeoSuite的可视化界面,使士兵能够与其他作战信息一起获取人工智能衍生的见解。这种集成展示了将专用人工智能工具与成熟的任务系统相结合,如何能够改善作战协调和态势感知。
参考来源:GLOBE NEWSWIRE
在谋求获取人工智能优势的同时,也需要平衡潜在风险。美国已发布报告、指南和政策,以确保在国防、工业和学术领域负责任地使用人工智能。其中一个早期例子是,美国国家安全人工智能委员会在其报告中强调了“建立对人工智能系统的合理信心”的必要性,同时也承认“美国将通过执行现有程序……来部署安全可靠的人工智能”。然而,对于军事应用的人工智能赋能能力,现有程序仍需要在全生命周期内进行调整和增强。
为开始理解确保人工智能可信赖的可能解决方案,本文将现有的稳健流程和程序归纳为六大支柱:人机系统整合、数据保障、系统安全性、测试评估与验证确认、可靠性以及系统发布流程。这些支柱此前在美国陆军作战能力发展司令部军备中心的工作中已被识别,旨在制定路线图和举措,以减轻人工智能赋能能力开发和部署过程中可能产生的风险。本文将随后阐述这些支柱如何构成可靠、负责任人工智能的壁垒,并讨论在设计和部署可信赖的人工智能赋能能力过程中,为满足这些支柱要求所开展的工作和进展。这些概念的广泛应用及提议的风险缓解措施可适用于国际合作伙伴,以响应北约对制定共享规范与标准以确保负责任人工智能开发与部署的需求。
确保可信人工智能赋能系统的支柱
尽管最初的努力制定了一份包含数百项举措的路线图,但事实证明其过于繁复,难以有效沟通,更重要的是,难以聚焦和执行。因此,对该工作成果进行了提炼,形成了所谓的“可信赖与确保人工智能赋能系统支柱”。识别出的六大支柱如图所示,分别是:军备人机系统整合、数据保障、系统安全性、测试评估与验证确认、可靠性以及系统发布。
图1:可信赖与确保人工智能赋能系统的支柱。
这些支柱代表了广泛的科学与工程领域,它们共同识别和应对跨领域的风险,从而产生一个可信赖且可确保的产品。尽管每个支柱代表独特的领域,但风险及相关缓解措施的实施是交叉的,可能影响多个领域,因此各支柱之间仍存在相互影响。总的来说,这些支柱代表了成熟的领域,但新增的“数据保障”这一较新领域至关重要,其旨在开发评估和治理数据的工具、能力和方法学研究,以降低对系统与任务成功构成的风险。纳入“系统发布”这一支柱(它更像是一个管理特性,而非其他科学与工程领域),意在强调其他要素在孤立状态下是不足够的。必须收集相关信息、制品和证据,并与适当的利益相关方沟通,以便就系统的部署做出明智决策。关于这些支柱的核心要旨以及为专门针对人工智能赋能系统进行调整和塑造而在这些领域所做的努力,更多细节可见下文各分节。
本章探讨神经网络、拓扑数据分析、拓扑深度学习技术以及统计贝叶斯方法,旨在处理图像、时间序列和图数据,以最大化人工智能在军事领域的潜力。全章重点阐述了在图像、视频、音频和时间序列识别、欺诈检测以及图数据链路预测等方面的实际应用,说明具备拓扑感知和不确定性感知的模型如何能增强模型的鲁棒性、可解释性和泛化能力。
为保持竞争优势,军事力量必须比任何对手都更快速地将原始数据转化为可靠的决策。人工智能是一个专注于训练机器以复制人脑功能并高效执行智能任务的领域。现代人工智能将感知、理解与行动压缩至秒级,使其应用不仅是一种优势,更成为一项必需品。人工智能以数据的速度运行,驱动着从远程战略规划到日常指挥控制的各项任务,同时也在后勤与维护方面提升效率。具体而言,人工智能的应用可辅助进行预测性维护,以保持载具处于任务就绪状态;通过多传感器融合改进目标识别与战损评估;通过自适应频谱管理实施有效反干扰并获取电磁频谱优势;以及进行能随条件变化而适应的威胁感知路由规划。
人工智能建立在人工神经网络的基础上,这是一种受生物启发的计算模型,具有广泛的应用。人工神经网络的设计是众多学科中的一个重要研究前沿,用于解决从优化、预测、模式识别到目标分类等各种问题。
在人工神经网络中,通常包含三种类型的层:输入层、隐藏层和输出层。输入层接收来自输入数据的信息并将其传递给隐藏层。输入层中的每个神经元对应于输入数据中的一个特征。隐藏层承担了神经网络的大部分工作。每个隐藏层使用一组权重和偏置对输入数据应用指定的变换,然后应用非线性激活函数。非线性激活函数进一步增强了网络的表达能力。可以引入额外的隐藏层以从数据中提取高阶关系,而较少的层数可能不足以实现这一点。输出层产生网络的最终输出。输出层中的神经元数量对应于分类问题中的类别数量,或回归问题中期望的输出维度。
根据连接方式,神经网络架构主要分为两大类:前馈网络和循环网络。这两类网络通常表现出不同的行为特性。例如,前馈网络被认为是无记忆的,因为其输出与先前的网络状态无关;而循环网络则通过其循环连接考虑先前的网络状态,使其能够记住先前时间步的信息。
在军事作战领域,数据通常来源于异构、含噪、不完整且高维的源头。从此类复杂信息流中提取可靠的洞察,构成了重大的分析挑战。拓扑数据分析提供了一个强大的数学框架,用于揭示数据的基础结构与几何形状,使分析人员能够发现被传统方法隐藏的模式。尽管拓扑数据分析侧重于分析数据的形状以提取结构洞见,但近期的研究将这些思想扩展到拓扑驱动的深度学习,将拓扑原理直接集成到神经网络架构中。这种转变超越了仅将拓扑作为后分析工具的做法,而是将拓扑感知嵌入到学习过程中,使网络能够在训练期间保持全局结构、提高泛化能力并适应拓扑特征。
贝叶斯神经网络通过引入对模型参数的概率处理来扩展深度学习框架,以增强模型的可解释性和鲁棒性。贝叶斯神经网络并不为权重和偏置分配固定值,而是将其表示为具有相关概率分布的随机变量。这种概率视角捕捉了因数据有限或模型能力不足而产生的认知不确定性,为量化对已学习特征和预测结果的置信度提供了一种原则性的方法。
最近,贝叶斯公式已将不确定性估计集成到拓扑表示中,从而能够更可靠地表征数据的结构模式,特别是在噪声、稀疏性或有限样本影响拓扑摘要的情况下。这种结合支持诸如拓扑特征选择、流形学习以及不确定性下的持久同伦推断等任务,强化了概率建模与基于拓扑的学习框架之间的理论联系。
本章介绍了一系列从神经网络到贝叶斯方法,再到拓扑数据分析和拓扑深度学习的技术,及其在处理图像、时间序列和图数据方面的应用案例,以最大化人工智能在军事领域的潜力。它强调了将前沿方法与特定形式的数据相匹配,如何为包括军事行动在内的不同学科应用带来可衡量且可重复的优势。本章旨在强调精心管理数据、校准模型以及管理不确定性的重要性。通过推进人机协同并加速从实验原型到作战能力的转化,相关组织可以在技术演进定义成功的时代保持优势。本章分为两节,第一节介绍核心人工神经网络和贝叶斯方法,第二节则讨论神经网络中的拓扑方法。
最近看了很多文章。都在说我们已经迈过了奇点,Agent 时代来了。 海外一位做了六年 AI 创业的 Matt Shumer 写了篇长文叫《Something Big Is Happening》快一亿曝光。 他说自己一直给家人朋友讲"礼貌版本",因为诚实版本听起来像疯了。但他觉得不能再瞒着了。 Anthropic CEO Dario Amodei 发了两万字的《The Adolescence of Technology》。 把现在这个阶段比作人类文明的"青春期"。 我的朋友们也在写,"赛博禅心"说我们可能已经迈过了文明的奇点,"有机大橘子"说互联网已死、Agent 永生。
我看完这些文章之后的感受是: 他们都在告诉你"变化已经发生",但没有人把"变化具体是什么"讲的特别清楚。 模型不就是那些模型吗?产品不就是那些产品吗?为什么突然间就不一样了? 我猜很多人看完那些文章,焦虑了一阵,然后该干嘛干嘛。 因为你不知道具体发生了什么,就没法判断它跟你有什么关系。 这篇文章不是来制造焦虑的。焦虑没用。
我想做的事很简单:把 2026 年初 AI 领域到底发生了哪些变化,一层一层拆给你看。然后你自己判断要不要跟进。
自主机器人在交通运输、人机协作等领域的广泛部署,要求系统具备鲁棒的安全措施,以确保与物理世界的平稳交互。传统的安全控制算法虽能在结构化环境中提供可证明的保证,但在实际部署中仍面临两大持续挑战:其一,难以适应非平稳的目标与动力学过程;其二,在面对高维机器人及其复杂环境时,安全推理与执行的计算开销巨大,缺乏可扩展性。本论文认为,为了使机器人能够在日常生活中安全运行,必须超越传统的机器人安全范式,开发既具备自适应性又具备可扩展性的安全控制与分析方法。 本论文采用自顶向下的方式处理受安全约束的自适应任务。在顶层框架中,我们将问题表述为一个优化问题,其包含:(a) 任意控制目标,并受限于 (b) 系统动力学和 (c) 安全要求的编码约束。这一视角自然地延伸到了对真实世界复杂性的建模:控制目标可能因人类偏好等不可预测因素而改变,动力学可能因物理条件的演变而漂移,且在考虑细粒度的人机交互时,安全约束会演变为高维且多目标的形式。 基于上述视角,本论文做出了两项主要贡献。首先,我们开发了能够在交互式操作中保持安全性的自适应方法。针对多变的控制目标,我们提出了条件协作处理过程 (Conditional Collaborative Handling Process, CCHP),通过引入短时上下文演示,在物理人机协作任务中实现了快速的目标推理与控制器调节。针对带安全保证的动力学自适应问题,我们利用可证明安全控制器综合的结构特性,通过行列式梯度上升法 (Determinant Gradient Ascent, DGA) 实现了安全证书的实时更新。 其次,我们将研究重点转向高维系统,此类系统的安全推理必须能够扩展至复杂的动力学、丰富的感知信息以及耦合约束。我们提出了 $\lambda$-可达性 ($\lambda$-Reachability),这是一种可扩展的 Hamilton-Jacobi 安全分析方法,通过在局部一致性与长时界安全目标之间进行插值,提升了高维类人机器人安全价值综合中的价值近似精度与样本效率。针对安全价值函数不可避免存在缺陷的情况,我们进一步提出了投影安全集算法 (Projected Safe Set Algorithm, p-SSA),用以处理带有密集多体碰撞约束的灵巧安全控制中的不可行性问题,并在仿真环境及真实类人机器人的拥挤场景任务中实现了鲁棒的避障。 综上所述,这些研究成果将安全关键型机器人技术的研究范畴从受控的低维环境扩展到了自适应、高维的真实世界部署场景,使机器人能够在复杂的安全要求下高效且安全地运行。
由于无人机(UAV)具备出色的移动性与灵活性,其已被广泛应用于各类场景。近期,大语言模型(LLM)的突破性进展为提升无人机智能化水平提供了变革性机遇,使其超越了传统的基于优化和基于学习的方法。通过将 LLM 集成至无人机系统中,可以实现更高级的环境理解、集群协同、移动性优化以及高层任务推理,从而实现更具自适应性且具备上下文感知能力的空中作业。
本综述系统性地探讨了 LLM 与无人机技术的交叉领域,并提出了一套整合现有架构、方法论及应用场景的统一框架。首先,我们针对无人机领域的 LLM 适配技术进行了结构化分类,包括预训练、微调、检索增强生成(RAG)及提示工程(Prompt Engineering),并阐述了思维链(CoT)和上下文学习(ICL)等关键推理能力。其次,我们分析了 LLM 辅助的无人机通信与作业,涵盖导航、任务规划、集群控制、安全性、自主性以及网络管理。随后,本综述进一步讨论了多模态大语言模型(MLLM)在人机集群交互、感知驱动导航及协作控制中的应用。最后,我们探讨了包括偏见、透明度、问责制和人机协同(HITL)策略在内的伦理问题,并概述了未来的研究方向。总体而言,本研究将 LLM 辅助的无人机定位为构建智能化与自适应空中系统的基石。
无人机(UAV)已成为跨领域应用中的关键赋能技术,包括环境监测 [1]、公共安全 [2]、交通运输 [3]、农业 [4] 以及基础设施巡检 [5]。例如,无人机可用于追踪环境变化、支持灾害应急响应、评估作物健康状况、派送包裹及辅助交通管理。凭借其灵活性与移动性,在传统地面系统受限或不可行的场景下,无人机提供了高效且具成本效益的解决方案 [6]。
从通信角度来看,无人机对于增强无线网络日益重要。它们可作为空中基站扩展网络覆盖范围,特别是在基础设施稀缺或受损的地区 [7, 8]。此外,无人机还可以充当补盲中继 [9, 10]、收集地面设备数据 [11],并提供空中边缘计算能力 [12] 以降低通信延迟。另一方面,无人机可作为蜂窝用户接入网络,其安全导航、控制与感知需要可靠且低延迟的连接 [13]。当多台无人机协作时,可构建飞行自组织网络(FANETs),实现自主组织并提供大地理范围或无基础设施环境下的延伸通信服务。这些能力使无人机成为无线回传、智慧城市应用及未来移动通信系统的核心组成部分 [15]。
成本效益、作业灵活性和动态部署能力的提升正推动无人机生态系统的飞速扩张。现代无人机平台日益配备高分辨率相机和精密传感器,实现了大规模、低成本的数据获取。因此,无人机在多个行业领域的民用价值显著提升 [16]。全球无人机市场规模在 2024 年估值为 364.1 亿美元,预计到 2032 年将达到 1259.1 亿美元,年复合增长率(CAGR)达 17.3% [17]。市场的蓬勃发展凸显了对智能无人机辅助解决方案日益增长的需求。
与此同时,人工智能(AI)已成为提升无人机辅助通信系统自主性与效率的关键驱动力。AI 技术广泛用于优化无人机移动性、资源分配和调度,使无人机能动态适应空地作业需求。然而,采用 AI 的主要动力源于无人机作业环境固有的复杂性和高动态性,在这种环境下,精确的解析建模往往不可行。此外,无人机的移动性导致了高维状态与动作空间,而有限的感知能力和间歇性的连接导致地面设备信息(如电量、信道状况)往往是不完整或过时的。这些挑战使得数据驱动和基于学习的解决方案(Learning-based solutions)与无人机网络优化具有极高的适配性 [17]。
近期,随着大语言模型(LLMs)的出现,AI 领域取得了重大突破。LLM 在语言理解、生成和推理方面表现出卓越能力。依托自然语言处理(NLP)和机器学习(ML)数十年的积淀,LLM 已成为 AI 辅助系统发展的核心动力。其解析复杂指令和执行多步推理的能力引起了广泛关注。在无人机系统中,LLM 为自动化复杂决策过程、增强情境感知以及支持智能网络运营提供了新机遇 [18]。然而,在安全敏感和任务关键型环境中部署 LLM 辅助方案也带来了伦理与运营上的严峻挑战,包括数据隐私、偏见公平性及问责透明度。解决这些问题对于确保 LLM 的可信集成至关重要。
此外,尽管顶尖 LLM 主要处理文本数据,但无人机辅助网络本质上会产生异构信息,包括无线信号、视觉感知数据和上下文元数据。这种模态失配催生了**多模态大语言模型(MLLMs)和视觉语言模型(VLMs)**的发展,使其能够对多种数据源进行联合处理与推理 [19]。这种多模态智能对无人机尤为重要,因为有效的决策往往依赖于通信、感知与环境信息的深度整合。
将无人机与 LLM 结合,引入了传统控制与优化方法难以企及的新高度。长期以来,优化技术(如资源分配和轨迹设计)一直是无人机通信的核心。然而,传统的凸优化或启发式算法在高度动态的环境中缺乏足够的自适应性。尽管深度强化学习(DRL)提供了灵活性,但往往面临泛化能力有限及**“模拟到现实”(Sim-to-Real)鸿沟的问题,阻碍了其在真实场景中的可靠部署。 与传统的基于 ML 的优化方法相比,LLM 引入了一种以语义推理为中心而非单纯参数微调的新范式。LLM 运行在更高的抽象层级,能够对异构输入和任务级目标进行结构化推理。这使得 LLM 不再仅仅是优化器,而是无人机系统中的认知协调器(Cognitive Coordinators)**。 具体而言: * 通信语义化: LLM 能够以自然语言形式理解网络日志、拓扑结构、信道状况及任务约束,将原始遥测数据转化为结构化的情境感知。 * 跨层整合: LLM 不是解决孤立的子问题(如功率分配),而是综合跨层信息来指导自适应频谱管理和集群资源协作。 * 自主性增强: LLM 通过多模态集成,将传感器数据、地图表示和文本任务描述统一到推理框架中。这实现了不确定条件下的动态任务分解和应急预案制定。 * 上下文学习(ICL): LLM 的核心特性之一是 ICL,它能通过反馈实现实时适配,无需重新训练的计算开销。 * 可解释性与交互: LLM 的推理能力通过生成自然语言解释,显著增强了系统的透明度与信任感,降低了非专家用户操作无人机的门槛。
本文对 LLM 与无人机的交互进行了全面研究,主要贡献如下: 1. 综合综述与统一框架: 系统映射了 LLM 与无人机系统在作业、通信及伦理维度的融合路径,并提出了适配无人机挑战的结构化技术分类(预训练、微调、RAG、提示工程)。 1. 多模态模型(MLLM)深度探讨: 详细分析了 MLLM 作为下一代无人机赋能技术的核心架构及新兴能力(如 MCoT 和 M-ICL),并展示了其在视觉语言导航和集群控制中的应用。 1. 伦理与风险严谨分析: 深入剖析了 LLM 辅助无人机系统(LAUS)在偏见、公平性、透明度及环境影响方面的挑战,并提出了观测与调试的缓解策略。
(本部分对现有文献如 Javaid et al. [20], Cidjeu et al. [22], Yumeng et al. [23] 等进行了总结,强调了本文与现有研究的区别:本文更聚焦于通信可靠性、多模态数据整合以及从理论到实践的案例研究。)
本论文研究的核心问题可概括如下:给定一个 NP-难组合优化问题及其一个次优解(例如通过高效近似算法获得),该次优解与最优解的接近程度如何?解的质量通过最坏情况比率(Worst-case ratio)来衡量,即在所有输入实例中,算法解的成本与最优解成本的比值。 本论文旨在开发新技术,针对三类基础组合优化问题——覆盖问题(Covering)、匹配问题(Matching)和调度问题(Scheduling),为上述问题证明紧确界(Tight bounds)。此外,我们在三个不同但相关的语境下探讨这一问题。首先,次优解可由标准的近似算法获得,该算法可以提前获取全部输入信息,此时关注的比率称为近似比(Approximation ratio)。其次,在更具局限性的计算模型中,输入随时间部分揭示,要求在线算法(Online algorithm)在每一步做出不可撤销的决策,此时对应的衡量指标为竞争比(Competitive ratio)。最后,解可能作为博弈论中的平衡态(例如纳什平衡)出现,在这种情况下,相关的衡量指标被称为无序代价(Price of anarchy)。
本研究所有结果的一个统一主题是利用凸规划松弛(Convex programming relaxations),如线性规划(LP)和半正定规划(SDP)。特别是,我们频繁利用凸规划的**对偶性(Duality)**来构建精心选择的对偶解,用以指导各类分析并辅助算法设计。
首先,我们对经典的**顶点覆盖问题(Vertex cover problem)及其标准 LP 松弛开展了超越最坏情况的分析(Beyond the worst-case analysis)。该问题在二分图上可高效求解,而在一般图上通过对 LP 解进行取整可获得 2-近似算法。我们引入了新参数并设计了一种算法,其达到的界限能够在上述两个极端情况之间进行插值。对于三着色图,我们的结果揭示了 LP 的整数值间隙(Integrality gap)何时因图结构的影响而减小至 1。 其次,我们研究了经典在线二分匹配问题在超图上的扩展,特别关注在线顶点到达模式下的 3-均匀超图。我们为该问题提出了一个最优的原始-对偶(Primal-dual)分数算法,并构造了一个对抗实例以确立匹配的上界。此外,针对在线节点度数有界的情形,我们提供了一个优于贪心策略的随机化整数算法。 随后,我们考虑了以最小化加权完成时间之和为目标的若干调度与拥塞问题。我们在单一半正定规划上引入了一个对偶拟合(Dual fitting)框架,该框架能够同时为局部搜索算法的近似比、在线算法的竞争比以及博弈的无序代价提供紧确界的简洁证明。通过这一统一框架,我们的研究简化并统一了该领域的重要既有成果。 最后,我们研究了二叉堆上的在线图搜索问题,该问题与求解整数规划的分枝定界算法(Branch and bound algorithm)**密切相关。我们提供了一种新的随机化算法,虽然略微增加了空间开销,但提升了该问题的已知最佳运行时间。
随着多模态信息的飞速增长,视觉文档检索 (Visual Document Retrieval, VDR) 已成为弥合非结构化视觉丰富数据与精确信息获取之间鸿沟的关键前沿领域。与传统的自然图像检索不同,视觉文档具有由高密度文本内容、复杂的版式布局以及细粒度的语义依赖所定义的独特特征。
本文首次对 VDR 领域进行了全面的综述,特别聚焦于多模态大语言模型 (MLLM) 时代的视角。我们首先考察了当前的基准测试格局,随后深入探讨了方法论的演进,将现有方法归纳为三个主要方面:多模态嵌入模型、多模态重排序模型,以及面向复杂文档智能的检索增强生成 (RAG) 与智能体 (Agentic) 系统的集成。最后,我们识别了当前持续存在的挑战并概述了具有前景的未来研究方向,旨在为未来的多模态文档智能研究提供清晰的路线图。
多模态检索旨在利用跨越文本与视觉等多种模态的查询,从大规模集合中检索相关的多模态信息。该任务已成为现代信息检索的基石 (Mei et al., 2025; Zheng et al., 2025a)。从历史上看,该领域的研究主要集中在自然图像检索,针对照片和网络图像数据集,其主要目标是匹配物体、场景或整体视觉概念 (Wu et al., 2024a; Arslan et al., 2024)。然而,学术界和工业界都开始将注意力转向一种截然不同且无处不在的数据类型:视觉文档。这些文档涵盖了从扫描版 PDF、商业报告到发票和学术论文的广泛范畴,其特点是文本内容、复杂布局与图形元素之间的深度交织 (Tang et al., 2023; Li et al., 2024d)。 向视觉文档检索 (Visual Document Retrieval, VDR) 的转向是由视觉文档与自然图像之间的三个根本区别驱动的(如图 1 所示): * ❶ 信息模态与密度:不同于通过整体场景传达语义的自然图像,视觉文档是混合实体,其含义由丰富的文本信息和结构化的空间布局共同决定。其信息本质上具有高密度、层次化和多模态的特征。 * ❷ 语义粒度:自然图像检索通常针对高层概念(如“一只坐在沙发上的猫”),而 VDR 则要求更细粒度的理解。用户可能会查询嵌入在表格中的特定事实、段落中的特定句子,或取决于其在文档级位置的信息(如“论文的方法论部分”)。 * ❸ 用户意图与任务复杂度:VDR 通常面向精确的信息寻求、问答及基于证据的推理,而非概念性或审美性的匹配。
此外,随着多模态大语言模型 (MLLMs) 通用能力的提升 (Song et al., 2025; Yan et al., 2025b,a),VDR 领域正日益关注两者的集成。这包括开发基于 MLLM 的嵌入 (Embedding) 和重排序 (Reranker) 模型以增强语义匹配 (Tao et al., 2024; Zhang et al., 2024b; Wang et al., 2025d)。除此之外,目前也在积极探索在更复杂的框架中利用这些模型,例如检索增强生成 (RAG) 流水线 (Gao et al., 2023; Cheng et al., 2025; Gan et al., 2025a) 和智能体 (Agentic) 系统 (Singh et al., 2025),以应对复杂的文档智能场景。 研究范围 (Scope)。尽管已有一些综述涉及相关领域(如表 1 所示),但在大模型 (LLM) 时代,针对 VDR 的专门且全面的分析仍然缺失。以往的综述大多集中在传统信息检索 (Alaei et al., 2016)、用于文档理解的通用深度学习 (Subramani et al., 2020; Sassioui et al., 2023; Ding et al., 2024),或自然图像检索 (Zhou et al., 2017; Hameed et al., 2021)。即便最近一些关注 MLLM 兴起的综述也延续了这一趋势,侧重于通用文档理解 (Huang et al., 2024; Rombach and Fettke, 2025) 或将 MLLM 应用于自然图像检索 (Zhao et al., 2023; Zhang et al., 2025c)。据我们所知,目前尚无现有工作从以检索为中心的方法论视角,系统性地概述 LLM 时代的 VDR 版图,特别是涵盖新兴的 RAG 和基于智能体的范式。本综述旨在弥合这一关键空白,首次对 VDR 进行全面论述,将基础技术与 (M)LLM 驱动的最新突破进行整合。 论文结构 (Structure)。我们首先从基准测试 (Benchmark) 的视角出发,通过考察任务定义、基础设置以及数据集特征(如多语言支持和对推理密集型查询日益增长的重视)来系统地组织该领域。随后,我们转向以方法论为中心的分析,将现有方法归纳为三类主要范式: * ❶ 作为检索基础的嵌入模型; * ❷ 旨在优化初始检索结果的重排序模型; * ❸ 日益显要的 RAG 流水线与智能体系统。
最后,我们通过讨论挑战并概述未来前沿进行总结,旨在为多模态文档智能社区提供有价值的见解并激发后续研究。
在政府的领导下,美国提出通过扩大商业造船能力、建设劳动力队伍及强化联盟关系,以推进其经济与安全目标。长期以来,美国造船工业面临战略聚焦不足、采购流程复杂及对国内商用船舶建造支持有限等挑战。联邦对海事工业基础的投资力度减弱,加之私人投资不足与监管负担,影响了船舶及相关基础设施的建设进度与成本竞争力。
目前,美国新建商用船舶在全球市场份额中占比较低,其国内船厂数量与产能规模难以完全满足其国家战略需求。国际造船市场竞争激烈,部分国家依托其产业体系占据显著市场份额。此状况引发了美方对供应链依赖及安全问题的关注。美方认为,保持本土造船能力对其经济安全具有重要意义。
2025年4月9日,特朗普总统签署了题为“恢复美国海事优势”的第14269号行政命令,要求制定《海事行动计划》。这份具有开创性的文件不仅基于国内需求,也考量了国际现实,概述了重振海事工业基础的针对性步骤。该计划由国务卿、总统国家安全事务助理和管理与预算办公室主任协调战争部长、商务部长、劳工部长、运输部长、国土安全部长及美国贸易代表共同制定。它规划了一条重振美国海事实力的路线,确保国家能够捍卫其利益并运输其贸易。
《海事行动计划》旨在推行现代化政府采购流程、简化监管以加速造船并降低成本的政策。通过精简监管流程、加强跨部门协调,并为美国建造的船舶、船厂和海员提供可靠的长期资金和需求,美国将以应对当下及未来挑战所需的速度和规模重建海事实力。