I. 保护儿童并赋能家长
人工智能服务与平台必须采取措施保护儿童,同时赋能家长控制其子女的数字环境与成长过程。
国会应在特朗普政府迄今为保护儿童所采取行动的基础上,再接再厉。这些行动包括具有历史意义的《下架法案》的签署,这是第一夫人梅拉尼娅·特朗普为保护儿童及成年受害者免受深度伪造内容侵害的一项关键举措。
● 国会应通过提供强大工具,赋能父母及监护人管理其子女的隐私设置、屏幕使用时间、内容接触及账户控制。
● 国会应为可能被未成年人访问的人工智能平台与服务,建立商业上合理、保护隐私的年龄验证要求(例如家长证明)。
● 国会应要求可能被未成年人访问的人工智能平台与服务,实施相关功能以降低未成年人遭受性剥削及自我伤害的风险。
● 国会应确认现有的儿童隐私保护规定适用于人工智能系统,包括对用于模型训练和定向广告的数据收集的限制。
● 国会应避免设定关于可允许内容的模糊标准,或开放式的责任规定,以免引发过度诉讼。
● 国会应确保其立法不优先于各州执行其自身普遍适用的、保护儿童的法律,例如禁止儿童性虐待材料的相关法律,即使此类材料由人工智能生成。
II. 保障并加强美国社区 人工智能的发展,包括数据基础设施的建设,应通过经济增长和能源主导地位来加强美国社区及小企业,同时确保社区免受有害影响。
● 根据《纳税人保护承诺》,国会应确保居民纳税人不会因新的人工智能数据中心建设和运营而面临电费上涨。
● 同时,国会应简化人工智能基础设施建设与运营的联邦许可程序,以便人工智能开发者能够开发或获取现场及表后发电,从而加速人工智能基础设施的建设和增强电网可靠性。
● 国会应加强现有执法力度,打击利用人工智能实施的、针对老年人等弱势群体的冒充诈骗和欺诈行为。
● 国会应确保国家安全体系内的相关机构拥有足够的技术能力,以理解前沿人工智能模型的能力及任何相关的国家安全考量,并制定计划以缓解潜在的担忧,包括通过与前沿人工智能模型开发者进行协商。
● 国会应向小企业提供人工智能资源,例如补助金、税收激励和技术援助计划,以支持人工智能工具在美国工业界的更广泛部署。
III. 尊重知识产权与支持创作者
应保护美国创作者、出版商和革新者免受侵犯其受保护内容的人工智能生成产出的侵害,同时不损害合法的创新与言论自由。
尽管政府认为基于受版权保护的材料训练人工智能模型不违反版权法,但也承认存在相反观点,因此支持由法院来解决此问题。同样,国会不应采取任何可能影响司法部门就“基于受版权保护的材料进行训练是否构成合理使用”作出裁决的行动。
国会应考虑建立许可框架或集体权利制度,使权利持有人能够集体与人工智能提供商协商补偿,而不会招致反垄断责任。然而,任何此类立法均不应涉及何时或是否需要此类许可。
国会应考虑建立一个联邦框架,保护个人免遭未经授权分发或商业利用其声音、肖像或其他可识别属性的人工智能生成数字复制品的行为,同时为受第一修正案保护的戏仿、讽刺、新闻报道及其他表达性作品提供明确的例外。国会应防止个人滥用此类框架来压制网络自由言论。
国会应继续密切关注法院版权判例和执法的发展,并评估由于人工智能带来的新考量,是否需要在此处建议的行动之外采取额外措施,以填补潜在空白或为内容创作者提供额外保护。
IV. 防止审查制度与保护言论自由
联邦政府必须捍卫言论自由和第一修正案保护,同时防止人工智能系统被用于压制或审查合法的政治表达或异议。
● 国会应防止美国政府胁迫技术提供商(包括人工智能提供商)基于党派或意识形态议程来禁止、强制或更改内容。
● 国会应为美国民众提供有效途径,使其在联邦政府机构试图审查人工智能平台上的表达或规定人工智能平台所提供信息时,能够向联邦政府寻求补救。
V. 促进创新与确保美国人工智能主导地位
美国必须在人工智能领域引领世界,通过消除创新壁垒、加速人工智能应用在各领域的部署,并确保广泛获得构建世界级人工智能系统所需的测试环境。
● 国会应为人工智能应用建立监管沙盒,以帮助释放美国创造力,并进一步巩固美国在人工智能开发和部署方面的领导地位。
● 国会应提供资源,以便以适用于人工智能的格式向工业界和学术界开放联邦数据集,用于训练人工智能模型和系统。
● 国会不应设立任何新的联邦规则制定机构来监管人工智能,而应支持通过具有专业知识的现有监管机构以及行业主导的标准,来开发和部署特定领域的人工智能应用。
VI.教育美国民众与发展人工智能就绪的劳动力
美国工人必须从人工智能驱动的发展中受益,而不仅仅是享受人工智能发展的成果。这需要通过青年发展与技能培训、在人工智能驱动的经济中创造新工作岗位以及扩大各领域的机会来实现。
● 国会应使用非监管方法,确保现有的教育项目、劳动力培训与支持项目(包括学徒制)积极纳入人工智能培训。
● 国会应扩大联邦政府的研究工作,以分析人工智能驱动的任务层面劳动力结构调整趋势,从而为支持美国劳动力的政策提供依据。
● 国会应加强赠地院校的能力,以提供技术援助、启动示范项目并开发人工智能青年发展计划。
VII. 建立联邦政策框架,优先于繁琐的州人工智能法律
联邦政府必须建立联邦人工智能政策框架,以保护美国权利、支持创新,并防止各州法规形成阻碍我国竞争力的碎片化格局,同时尊重联邦制与各州权利。
● 国会应优先于施加不当负担的各州人工智能法律,以确保建立一个符合本建议的、负担最小的国家标准,而不是五十个相互冲突的标准。
● 该国家标准应尊重联邦制的关键原则,且不优先于以下方面:
o 各州保留的、针对人工智能开发者和用户执行普遍适用法律的传统治安权力,包括保护儿童、防止欺诈和保护消费者的特定法律。
o 州分区法律,包括州级机构决定人工智能基础设施布局的权力。
o 约束各州自身使用人工智能的要求,无论是通过采购还是通过它们提供的服务(如执法和公共教育)。
● 优先权必须确保州法律不管辖更适合联邦政府管辖的领域,或不违背美国实现全球人工智能主导地位的国家战略。
o 不应允许各州监管人工智能的发展,因为它本质上是具有重大外交政策和国家安全影响的跨州现象。
o 各州不应为美国人使用人工智能从事本属合法的活动施加不当负担。
o 不应允许各州因第三方涉及其模型的不法行为而处罚人工智能开发者。
原创作者:黎酝,顾宇轩
指导老师:冯骁骋
原创指导:顾宇轩 转载须标注出处:哈工大SCIR
近年来,以大规模预训练为基础的语言模型迅速发展[1-4] 。借助海量语料[5] 、自注意力架构[6-8] 以及参数规模的指数增长[9-10] ,这类模型在对话交互[11] 、代码生成[12] 、思维推理[13] 等诸多任务中取得了突破性进展。尽管如此,大模型在实际应用中仍面临多种结构性挑战。首先,幻觉[14] 是其最为突出的失效模式之一,即模型尽管输出流畅,但在事实正确性或任务忠实性上存在严重偏差。大模型的幻觉问题已经呈系统化、大规模化特征。其次,在指令理解或任务执行环节[15-16] ,模型常出现误解用户意图、忽略任务边界或者泛化错误任务等的现象,使得其输出偏离用户指令预期的操作规范。再者,在多轮对话或长上下文交互中[17] ,模型有时会迷失在对话上下文中,发生记忆丢失、话题漂移、自相矛盾或逻辑断裂的情况。更重要的是,模型内部机制大多仍为黑箱,导致我们无法直观判断其为什么出现错误、在哪里出错,从而严重制约了在高风险场景(如医疗、金融、政务等)中的可信部署[18-21] 。总体来看,尽管大模型技术日益成熟,但其可靠性、可解释性和安全性尚未同步提升,亟需系统化的研究以识别、定位与缓解其失效原因[22] 。针对上述挑战,现有研究逐渐认识到,仅仅衡量模型整体性能,如问题回答的准确率等指标,已不足以满足深入理解与应用保障的需求[23-26] 。相反,错因诊断与错因分析已成为新的研究范式。这类研究涵盖行为层面的测试,例如能力列表检测[27-29] 、探针分析[30-32] 、校准置信度[33-35] )、机制层面的可解释性工具(如激活补丁[36-37] 和表示归因[38-39] )以及检索增强中的知识源头归因[40] 等。如图 1所示,这一系列工作的核心目标是从模型出现错误这一黑盒现象,提升至模型为何出错、出错在哪一环、甚至如何修复这一可操作层面。进行此类错因诊断的研究具有多重意义:从理论层面而言,它能推动我们理解大模型从数据、表示、推理、解码、工具链等多层结构中的内在故障机制;从方法层面而言,它为构建从检测到定位再到修复的闭环提供了路径,从而使得模型的迭代不仅是经验驱动的,而更具系统性;从应用层面而言,它是构建可信、可审计、可治理的大模型系统的前提条件,尤其在高风险场景中,必须能够追踪模型失效的级别、来源与责任。换言之,错因诊断与分析的研究使大模型技术从表现优异走向行为可控、机制可解释、结果可审查的更高层级。
图1:错因分析总览 基于上述背景,我们提出对大模型错因与诊断方法进行体系化的调研与总结,旨在将目前散落于不同任务、不同模型、不同研究范式中的大模型出错诊断技术与错因溯源分析加以结构化、分类化与整合。我们主张构建一个涵盖数据与知识分布、表示机制、推理过程、不确定性、上下文利用、检索增强、指令理解等多个维度的错误诊断与错因分析框架。这样做具有重要意义:首先,它为研究者提供了系统化视角,能将行为级现象与模型底层机制映射起来,从而提升对大模型出错原因的理论理解;其次,它为工程实践提供了可操作的诊断指南,研究者或开发者可据此选择针对性的诊断策略、对模型进行定量评估、并制定修复流程;最后,通过建立共有的分类范式与基准流程,有望促进跨模型、跨任务、跨团队的比较研究与结果复现,进而推动大模型生态向可解释与可信的方向演进。总而言之,我们希望构建体系化的总结而不是简单的整理,将错因诊断从孤立案例提升为共建公共知识库和规范分析决策流程,从而加速大模型从黑箱困境向工程可管信任系统的转型。
随着大语言模型在自然语言理解和生成任务中展现出前所未有的能力,其输出的质量和可靠性成为学术界和工业界高度关注的问题。然而,由于模型的训练数据、生成策略以及内部机制的限制,其输出并非总是准确、可靠或符合预期。为了科学评估模型性能、指导模型优化和保障应用安全,有必要对大语言模型的错误进行明确的定义和系统分析。大语言模型错误是指模型在生成文本过程中,其输出内容与人类期望、任务要求或客观标准之间存在显著偏差,导致信息不准确、不可靠或不符合预期。这种偏差不仅包括事实错误,还涵盖了模型在理解指令、逻辑推理、文本连贯性及有效性等方面的缺陷。具体而言,错误可能表现为事实性错误,即模型输出与客观事实、数据或可验证信息不一致,包括虚构、错误或不精确的陈述;遵循性错误,即模型未能正确理解或执行用户指令,导致输出与任务要求、格式规范或安全约束不符;推理性错误,即模型在逻辑推理、数学计算、因果分析或归纳演绎过程中出现错误,从而导致结论不成立或不合理;连贯性错误,即文本在结构、语义流或话题衔接上不自然、混乱或跳跃,影响阅读理解和信息传递;以及有效性错误,即模型生成的内容在形式上可能看似合理,但在实质上缺乏可操作性或完整性。大语言模型错误具有几个核心特征。首先,它是可验证的,可以通过客观标准或规则进行判断,而不仅仅是风格或偏好差异。其次,它体现为模型输出与期望的偏离,这种偏离既可以是客观偏离,如事实错误或逻辑冲突,也可以是主观偏离,如未完全执行任务指令或格式要求。第三,这类错误具有可归类性,可以系统地进行分类和标注,从而形成标准化的分析体系。最后,大语言模型错误直接影响输出信息的可靠性和可用性,对用户体验、任务完成以及应用安全均具有潜在风险。需要说明的是,并非所有生成文本的偏差都具有相同的严重性,但风格差异、措辞选择、表达流畅度以及信息覆盖不完整都可视为大语言模型输出偏差的一部分,属于广义的错误范畴。例如,输出未完全覆盖关键信息、缺少必要步骤或细节,虽然核心任务部分完成,但仍会导致任务不可完全执行,这类情况应判定为有效性错误;类似地,措辞不当、表达不流畅或结构组织欠佳,也可能降低信息传递的准确性和可理解性,应视为连贯性或呈现性错误。换言之,错误的定义不再局限于事实性或逻辑性偏差,而应涵盖所有影响模型输出可靠性、可操作性与可理解性的偏差类型,从而形成更加全面的分析标准。对大语言模型错误进行明确定义的意义在于,它为模型性能评估与改进提供了可操作的理论基础。一方面,错误定义能够帮助研究者识别模型在不同层面的系统性缺陷,从而针对性地设计诊断与修复机制;另一方面,明确的错误标准也为模型安全与可信性治理提供依据,使模型输出能够在事实正确性、逻辑一致性与语义可控性之间实现平衡。通过对错误的识别、解释与控制,可以推动大语言模型从语言流畅向语义可靠的方向演进,为其在教育、医疗、法律、科研等高价值领域的应用奠定安全与可信的基础。 为系统性刻画大语言模型在实际应用中可能出现的问题,我们构建了一套涵盖多维度的大模型错误分类体系。从事实性、遵循性、推理性、连贯性到有效性等五个角度,对模型在生成过程中可能暴露的失误进行细致划分。错误类别与定义如表 1所示,为后续的错误检测与缓解方法奠定了统一的分析基础。具体的错误样例和解释如表 2所示。
表1:错误类别与定义
表2:错误类型具体样例 3. 基于信息损失的错误根因分析 大模型错误的根因是指导致大模型输出偏离正确目标的潜在机制性因素中产生决定性影响的内在动因。与作为可观测现象的大模型错误相比,大模型错误根因无法直接获取,而是依赖大量分析工具沿着因果链条向大模型内部机制溯源。随着溯因分析的深入,错误根因往往会与错误缓解手段产生直接关联。关于大模型错误根因与错误的具体区别主要体现为:二者分别处于机制层与现象层,对应“为什么会错”与“错在了哪里”。错误是可观测输出偏差,其判定依赖将模型输出与人类预期比较,例如人类可以轻易发现模型输出推理链条中的漏洞;错因是内部机制,其确认依赖因果诊断而非仅凭表层比对,例如需要判定某种错误根因的类型需要有对该机制相关变量进行控制性改变并能稳定地对模型错误产生一致的观测结果。由此导出三个可操作的区分准则:(1) 可观测性:错误可由输出与预期直接判定,错因需通过机制证据或干预验证;(2) 可修复性:错因往往对应修复手段,而错误不具备可修复下;(3) 再现性:错因在有效的观测手段下一般稳定可复现,而错误受到大量因素干扰存在一定的随机性。在研究大模型错误的根因时,我们从大模型完整部署周期中信息流动与损失的视角出发,提出一种基于信息损失区间的根因分类体系。该体系认为,大语言模型从知识获取、参数化学习到指令理解与知识表达的全过程,构成了一条连续的信息传递链。真实世界知识被采样为知识库,通过模型训练被压缩进参数空间,再经由用户输入激活、解析、推理并输出为自然语言结果。任何环节的信息丢失、失真或偏移,都会在最终输出层面表现为不同类型的错误。因此,我们将大模型错误的根因划分为四个主要的信息损失区间:知识整合损失、信息压缩损失、指令理解损失与知识表达损失。这一分类框架以信息论为基础,强调错误并非孤立的输出偏差,而是信息在流经不同阶段时发生衰减与变形的结果。完整流程如图 2所示。
图2:基于大模型部署完整周期中信息流动损失的根因分类框架 首先,知识整合损失指真实世界知识与模型使用的知识库之间的不完全映射,这个知识库既能用于后续的模型训练,也可以作为检索来源作为生成阶段的补充信息。当知识库的采样存在覆盖不足、时间滞后或文化与领域偏倚等问题时,模型所能使用的知识分布即偏离了真实世界分布。这种采样与整合的不充分,导致模型在认知层面存在知识盲区或结构性缺口,从而成为事实性错误的根源。该损失反映了数据层的信息采样极限,与信息论中的采样定理相呼应:有限样本无法完备地表征连续的真实知识空间。 其次,知识压缩损失发生在模型训练阶段,是语料知识向参数空间映射时不可避免的信息退化。由于参数容量、优化目标与正则化约束的限制,模型在内化知识时会丢失部分细粒度信息或错误地混叠语义概念。根据信息瓶颈理论,神经网络在优化过程中会主动舍弃输入中的非判别信息以提升泛化性能,但这种“有益压缩”在知识建模任务中往往伴随着信息丢失,其具体表现为模型遗忘、模糊或错误地重构知识片段等。这一损失反映了模型结构与训练过程的根本约束,是参数化记忆能力不足的直接体现。 第三,指令理解损失指用户输入的自然语言指令在被模型解析为内部表示时的语义歧义、上下文遗忘或目标误解。大模型需要在高维语义空间中将符号化的语言信号映射为可操作的内部目标表示,任何映射误差都会引起意图偏离。这种损失属于交互层与对齐层的错因,其本质是一种编码到解码不对称性问题:输入语言的信息量在传递到模型内部时被不完全保留,从而造成模型行为与人类预期的错位。典型表现包括指令遵循错误、上下文不一致以及任务目标偏移。 最后,知识表达损失发生在生成阶段,即模型将内部知识重新映射为自然语言输出的过程中出现的失真或不稳定。当推理与解码策略,如采样温度、束搜索、规划式生成等,导致输出分布偏移时,模型可能无法准确表达其内部知识状态,进而产生事实错误、逻辑跳跃或叙述不连贯。这一损失刻画了输出层的信息再编码过程,其信息失真通常来源于概率估计不精确或解码机制的过强约束。信息论上,这对应于从潜在分布到可观测语言分布的近似重建误差。 综上所述,这一基于信息损失的根因分类框架,从宏观上揭示了大模型错误产生的四个关键环节,构成从知识采集到生成输出的完整因果闭环。与以往基于功能模块(如数据、优化、对齐等)的分类方法相比,该框架具有三方面优势:(1) 理论统一性:以信息流为主线将多类型错误归结为信息在不同阶段的损失表现;(2) 因果可解释性:每一类损失均可对应到可干预的机制变量,例如可通过数据扩充、模型微调或解码控制进行修复;(3) 模型无关性:该框架依赖信息传递过程而非具体架构设计,适用于不同类型的语言模型及多模态生成系统。由此,大模型错误的分析不再停留于现象描述,而转化为对信息损失路径的系统诊断,为后续的错因溯源与针对性改进提供了可理论化的基础。 3.1 知识整合损失 知识整合损失是指模型在知识获取与整合阶段,由于数据采样与组织的局限性而产生的系统性偏差。这类损失发生在真实世界知识向模型可见语料转化的初始环节,决定了模型可学习知识的上限。其核心问题在于知识库与真实知识分布之间的不匹配,表现为知识的缺失、错误、冲突或不均衡覆盖等。当正确知识不存在于语料中时,模型将不可避免地出现知识个例失真,表现为事实性错误或推理盲区;即便知识存在,若其在语料中的分布不佳,如稠密区域的过度重复与长尾区域的极度稀疏,也会导致模型学习到的概率结构与真实世界显著偏离,进一步放大知识不确定性。知识整合损失的产生机制可以用信息采样定理解释:有限语料只能对真实世界知识空间进行离散近似,因此不可避免存在抽样失真。知识整合损失的诊断可通过知识分布分析与错误回溯实现,例如检索或知识补全后模型性能显著改善往往意味着原始语料的覆盖缺陷。针对这类根因,研究可通过多源知识融合、长尾样本扩展、数据去偏与一致性校验等手段进行干预,从而提升模型在事实性与广域知识任务上的稳健性。
图3:知识整合损失根因细化图 如图 3所示,大语言模型知识整合损失主要源于两个相互独立但彼此交织的层面:其一是知识个例失真,即知识库可能未能正确收录目标知识导致训练数据中具体知识样本出现质量问题;其二是知识分布欠佳,即知识整体分布不均而难以被大模型有效学习或利用。这两个层面分别对应微观与宏观的知识缺陷,共同决定了模型在知识整合与推理中的可靠性。 3.2 信息压缩损失 信息压缩损失指在模型训练过程中,外部知识被映射并压缩到有限参数空间时发生的不可逆信息丢失与语义退化。该阶段位于知识整合之后,代表了从语料知识到参数表示的转换环节。根据信息瓶颈理论,深度网络在学习过程中往往牺牲部分输入信息以追求泛化与压缩效率,但当任务目标为知识保持时,这种压缩可能带来有害的信息损失。压缩损失主要体现在两类机制:一方面是新能力赋予时对旧有的基座能力破坏,即新的训练目标或微调过程与原有预训练能力发生冲突,导致基础语义或推理能力退化;另一方面是新能力赋予过程本身的训练方法缺陷,例如优化目标存在现实缺陷、超参数设定不当、或强化学习信号过度引导等问题,均可能造成梯度冲突与表示塌缩。此类损失常表现为模型在下游任务中出现能力倒退或记忆遗忘的现象,尤其在微调覆盖关键参数时尤为明显。信息压缩损失的诊断可通过基座能力测试、能力相容性分析及参数敏感性实验完成。针对该类问题,可采用能力守恒微调(如参数隔离或低秩适配)、正交梯度约束、多目标优化以及预训练数据回放等策略,以降低知识压缩带来的结构性退化。总体而言,信息压缩损失揭示了模型在知识内化阶段的物理极限,是理解模型能力边界和训练稳定性的重要理论支点。
图4:信息压缩损失根因细化图 如图 4所示,信息压缩损失是大语言模型在知识整合后的参数内化阶段出现的核心问题,主要源于两个相互独立但彼此交织的层面:其一是新旧能力冲突,指新能力训练与原有基座能力产生干扰,导致既有知识与能力被破坏[108-111] ,或者旧能力干扰新能力的学习[112-114] ;其二是新能力获取失效,指模型因参数容量限制[115-116] 或训练策略缺陷,难以有效吸收并稳定表达新能力。这两个层面分别对应能力交互的破坏性干扰与能力学习的承载策略缺陷,共同决定模型在知识内化和任务执行中的稳定性,也是后续事实性错误、 推理性错误等问题的关键参数层面诱因。此外,这两个维度背后共同的机制是信息压缩[117] ,在有限参数空间内对外部数据进行表示时不可避免地产生筛选、折损与竞争,从而在不同训练阶段显现为不同形式的系统性误差。 3.3 指令感知损失 指令感知损失是指模型在理解用户输入、解析语义指令或执行多轮交互时的信息传递缺口。它发生于输入端,是从外部指令到内部任务表示之间的语义映射失真。当模型虽具备一定理解潜力但泛化不足时,损失表现为对不同输入表述形式缺乏等价理解:例如在简单输入场景中,对描述方式变化的鲁棒性不足;在复杂输入场景中,则表现为任务结构解析错误、上下文记忆衰减或意图漂移。此外,当输入指令超出模型的训练分布范围,模型可能完全无法建立内部任务表示,形成理解缺失。从信息论角度看,该损失对应编码—解码不对称性问题,即自然语言指令在传递至模型内部语义空间时的信息保真度下降。其诊断方法包括输入重构与抗扰测试:若通过指令重写、任务分解或上下文重组即可显著提升输出一致性,则可归因于指令感知损失。此类问题的干预可通过输入指令标准化与模板化设计、层级推理提示(如 Chain-of-Thought 或 Tree-of-Thought)、上下文语义去干扰、以及基于偏好对齐的轻量强化学习实现。值得注意的是,指令感知损失往往是信息压缩损失与知识表达损失之间的中介环节,其存在直接影响模型在实际应用中的任务对齐度与交互稳定性。
图5:指令感知损失根因细化图 如图 5所示,指令感知损失主要源于两类相互独立却彼此关联的根因:其一是指令信息量不足,即用户输入中缺乏完成任务所需的核心语义成分,使模型难以准确建立内部任务表示,从而在意图理解上产生偏差;其二是指令信息量过高,即输入包含过度复杂或冗余的信息结构,超出模型即时解析与记忆能力,使语义映射过程发生退化。这两个层面分别对应指令表达不足与表达过载的极端情况,共同决定了模型在现实交互中对指令的理解保真度与执行稳定性。 3.4 知识表达损失 知识表达损失指模型在生成阶段将内部知识重新映射为自然语言输出时的信息失真或逻辑断裂。该损失发生在推理与解码阶段,代表了从内部知识到外部输出之间的再编码误差。其本质可分为两类机制:一方面是知识应用不足,即模型虽然具备正确的内部知识,但在具体推理步骤中调用失败,表现为思维链断裂、使用不当证据、或约束条件未被遵守;另一方面是推理能力不足,即模型无法稳定地完成长程逻辑依赖或因果规划,导致结果层面出现不一致、跳跃或非稳态波动。该损失的出现源于模型建模潜在分布的序列重建时累计的近似误差,当解码策略(如温度采样、束搜索、重采样等)未能精确反映模型的真实信念分布时,输出会偏离正确轨迹。知识表达损失的诊断通常依赖可解释推理分析与生成多样性测度:若通过解码策略调整、规划式生成即可显著缓解,则可确认属于表达层信息损失。针对该类问题,可引入规划化生成框架、约束解码与事实核验机制,以及外部工具调用或自一致性校验等增强手段。与前三类损失不同,知识表达损失直接影响模型输出质量与可靠性,是连接能力与表现的关键桥梁,其系统性研究对于实现稳健生成和可解释推理具有重要意义。
图6:知识表达损失根因细化图 如图 6所示,我们依据思维链在生成过程中的分解方式,将知识表达损失划分为两类根因:推理过程中的论据调用偏差与论证执行偏差。前者对应推理链条的步骤出错,后者对应最终推理总结的结果出错,两者共同构成了模型语言生成失真的核心机制。
[1] ACHIAM J, ADLER S, AGARWAL S, et al. Gpt-4 technical report[A]. 2023. [2] TOUVRON H, LAVRIL T, IZACARD G, et al. Llama: open and efficient foundation language models. arxiv[A]. 2023. [3] TOUVRON H, MARTIN L, STONE K, et al. Llama 2: Open foundation and fine-tuned chat models[A]. 2023. [4] DUBEY A, JAUHRI A, PANDEY A, et al. The llama 3 herd of models[A]. 2024. [5] OUYANG L, WU J, JIANG X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744. [6] VASWANI A. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017. [7] DEVLIN J. Bert: Pre-training of deep bidirectional transformers for language understanding[A]. 2018. [8] BROWN T B. Language models are few-shot learners[A]. 2020. [9] KAPLAN J, MCCANDLISH S, HENIGHAN T, et al. Scaling laws for neural language models[A]. 2020. [10] AGHAJANYAN A, YU L, CONNEAU A, et al. Scaling laws for generative mixed-modal language models[C]// International Conference on Machine Learning. PMLR, 2023: 265-279. [11] YI Z, OUYANG J, LIU Y, et al. A survey on recent advances in llm-based multi-turn dialogue systems[A]. 2024. [12] JIANG J, WANG F, SHEN J, et al. A survey on large language models for code generation[A]. 2024. [13] PLAAT A, WONG A, VERBERNE S, et al. Reasoning with large language models, a survey[A]. 2024. [14] HUANG L, YU W, MA W, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions[J]. ACM Transactions on Information Systems, 2025, 43(2): 1-55. [15] LOU R, ZHANG K, YIN W. Large language model instruction following: A survey of progresses and challenges[J]. Computational Linguistics, 2024, 50(3): 1053-1095. [16] YUN L, PENG L, SHANG J. ULTRABENCH: Benchmarking LLMs under extreme fine-grained text generation [C/OL]//CHRISTODOULOPOULOS C, CHAKRABORTY T, ROSE C, et al. Findings of the Association for Computational Linguistics: EMNLP 2025. Suzhou, China: Association for Computational Linguistics, 2025: 15438- 15453. https://aclanthology.org/2025.findings-emnlp.835/. DOI: 10.18653/v1/2025.findings-emnlp.835. [17] LABAN P, HAYASHI H, ZHOU Y, et al. Llms get lost in multi-turn conversation[A]. 2025. [18] DOSHI-VELEZ F, KIM B. Towards a rigorous science of interpretable machine learning[A]. 2017. [19] LIPTON Z C. The mythos of model interpretability: In machine learning, the concept of interpretability is both important and slippery.[J]. Queue, 2018, 16(3): 31-57. [20] RUDIN C. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead[J]. Nature machine intelligence, 2019, 1(5): 206-215. [21] HASSIJA V, CHAMOLA V, MAHAPATRA A, et al. Interpreting black-box models: a review on explainable artificial intelligence[J]. Cognitive Computation, 2024, 16(1): 45-74. [22] RAMACHANDRAM D, JOSHI H, ZHU J, et al. Transparent ai: The case for interpretability and explainability [A]. 2025. [23] BLAGEC K, DORFFNER G, MORADI M, et al. A critical analysis of metrics used for measuring progress in artificial intelligence[A]. 2020. [24] WANG Y, WANG X. A unified study of machine learning explanation evaluation metrics: abs/2203.14265[A/OL]. 2022. https://api.semanticscholar.org/CorpusID:247762126. [25] NAUTA M, TRIENES J, PATHAK S, et al. From anecdotal evidence to quantitative evaluation methods: A systematic review on evaluating explainable ai[J]. ACM Computing Surveys, 2023, 55(13s): 1-42. [26] MARCINKEVICS R, VOGT J E. Interpretable and explainable machine learning: A methods‐centric overview with concrete examples[J/OL]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2023, 13. https://api.semanticscholar.org/CorpusID:257290340. [27] COOK J, ROCKTÄSCHEL T, FOERSTER J N, et al. Ticking all the boxes: Generated checklists improve llm evaluation and generation: abs/2410.03608[A/OL].2024. https://api.semanticscholar.org/CorpusID:273162357. [28] VISWANATHAN V, SUN Y, KONG X, et al. Checklists are better than reward models for aligning language models[C/OL]//The Thirty-ninth Annual Conference on Neural Information Processing Systems. 2025. https://openreview.net/forum?id=RPRqKhjrr6. [29] WEI T, WEN W, QIAO R, et al. Rocketeval: Efficient automated LLM evaluation via grading checklist[C/OL]//The Thirteenth International Conference on Learning Representations. 2025. https://openreview.net/forum?id=zJjzNj6QUe. [30] HEWITT J, MANNING C D. A structural probe for finding syntax in word representations[C/OL]//North American Chapter of the Association for ComputationalLinguistics.2019.https://api.semanticscholar.org/CorpusID:106402715. [31] PENG H, WANG X, HU S, et al. COPEN: Probing conceptual knowledge in pre-trained language models[C/OL]//GOLDBERG Y, KOZAREVA Z, ZHANG Y. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Abu Dhabi, United Arab Emirates: Association for Computational Linguistics, 2022: 5015- 5035. https://aclanthology.org/2022.emnlp-main.335/. DOI: 10.18653/v1/2022.emnlp-main.335. [32] HEO J, XIONG M, HEINZE-DEML C, et al. Do LLMs estimate uncertainty well in instruction-following?[C/OL]// The Thirteenth International Conference on Learning Representations. 2025. https://openreview.net/forum?id=IHp3vOVQO2. [33] HEO J, HEINZE-DEML C, ELACHQAR O, et al. Do llms” know” internally when they follow instructions?[A].2024. [34] XIA Z, XU J, ZHANG Y, et al. A survey of uncertainty estimation methods on large language models[C/OL]//CHE W, NABENDE J, SHUTOVA E, et al. Findings of the Association for Computational Linguistics: ACL 2025. Vienna, Austria: Association for Computational Linguistics, 2025: 21381-21396. https://aclanthology.org/2025.findings-acl.1101/. DOI: 10.18653/v1/2025.findings-acl.1101. [35] SHORINWA O, MEI Z, LIDARD J, et al. A survey on uncertainty quantification of large language models:Taxonomy, open research challenges, and future directions[J/OL]. ACM Computing Surveys, 2024, 58: 1 - 38.https://api.semanticscholar.org/CorpusID:274597654. [36] HEIMERSHEIM S, NANDA N. How to use and interpret activation patching: abs/2404.15255[A/OL].2024.https://api.semanticscholar.org/CorpusID:269302704. [37] ZHANG F, NANDA N. Towards best practices of activation patching in language models: Metrics and methods[C/OL]//The Twelfth International Conference on Learning Representations. 2024. https://openreview.net/forum?id=Hf17y6u9BC. [38] BAYAZIT D, MUELLER A, BOSSELUT A. Crosscoding through time: Tracking emergence & consolidation of linguistic representations throughout llm pretraining:abs/2509.05291[A/OL].2025.https://api.semanticscholar.org/CorpusID:281195050. [39] LI Z, ZHAO W, LI Y, et al. Where did it go wrong? attributing undesirable llm behaviors via representation gradient tracing: abs/2510.02334[A/OL]. 2025. https://api.semanticscholar.org/CorpusID:281829830. [40] CHENG S, LI J, WANG H, et al. Ragtrace: Understanding and refining retrieval-generation dynamics in retrieval-augmented generation[J/OL]. Proceedings of the 38th Annual ACM Symposium on User Interface Software and Technology, 2025. https://api.semanticscholar.org/CorpusID:280561815. [41] WEN B, KE P, GU X, et al. Benchmarking complex instruction-following with multiple constraints composition. corr, abs/2407.03978, 2024. doi: 10.48550[A]. [42] WEI J, WANG X, SCHUURMANS D, et al. Chain-of-thought prompting elicits reasoning in large language models [J]. Advances in neural information processing systems, 2022, 35: 24824-24837. [43] HE Y, LI S, LIU J, et al. Can large language models detect errors in long chain-of-thought reasoning?[C]//Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025: 18468-18489. [44] GOYAL T, LI J J, DURRETT G. Snac: Coherence error detection for narrative summarization[A]. 2022. [45] RIBEIRO M T, WU T, GUESTRIN C, et al. Beyond accuracy: Behavioral testing of NLP models with CheckList [C/OL]//JURAFSKY D, CHAI J, SCHLUTER N, et al. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics, 2020: 4902-4912. https://acla nthology.org/2020.acl-main.442/. DOI: 10.18653/v1/2020.acl-main.442. [46] KUCHNIK M, SMITH V, AMVROSIADIS G. Validating large language models with relm[J]. Proceedings of Machine Learning and Systems, 2023, 5: 457-476. [47] KIM J, PARK S, KWON Y, et al. Factkg: Fact verification via reasoning on knowledge graphs[A]. 2023. [48] MIN S, KRISHNA K, LYU X, et al. Factscore: Fine-grained atomic evaluation of factual precision in long form text generation[C]//Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023:12076-12100. [49] PENG B, GALLEY M, HE P, et al. Check your facts and try again: Improving large language models with external knowledge and automated feedback[A]. 2023. [50] HUO S, ARABZADEH N, CLARKE C L. Retrieving supporting evidence for llms generated answers[A]. 2023. [51] KADAVATH S, CONERLY T, ASKELL A, et al. Language models (mostly) know what they know[A]. 2022. [52] DHULIAWALA S, KOMEILI M, XU J, et al. Chain-of-verification reduces hallucination in large language models [C/OL]//Annual Meeting of the Association for Computational Linguistics. 2023. https://api.semanticscholar.org/CorpusID:262062565. [53] SAUNDERS W, YEH C, WU J, et al. Self-critiquing models for assisting human evaluators[A]. 2022. [54] LI J, CHENG X, ZHAO W X, et al. Halueval: A large-scale hallucination evaluation benchmark for large language models[A]. 2023. [55] ZHANG T, KISHORE V, WU F, et al. Bertscore: Evaluating text generation with bert: abs/1904.09675[A/OL]. 2019. https://api.semanticscholar.org/CorpusID:127986044. [56] VARSHNEY N, YAO W, ZHANG H, et al. A stitch in time saves nine: Detecting and mitigating hallucinations of llms by validating low-confidence generation[A]. 2023. [57] VRANDEČIĆ D, KRÖTZSCH M. Wikidata[J/OL]. Communications of the ACM, 2014, 57: 78 - 85. https://api.semanticscholar.org/CorpusID:14494942. [58] BOLLACKER K D, EVANS C, PARITOSH P K, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C/OL]//SIGMOD Conference. 2008. https://api.semanticscholar.org/CorpusID: 207167677. [59] XU B, XU Y, LIANG J, et al. Cn-dbpedia: A never-ending chinese knowledge extraction system[C/OL]// International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems. 2017. https://api.semanticscholar.org/CorpusID:1627142. [60] National Library of Medicine (US). Pubmed[EB/OL]. 1996. https://pubmed.ncbi.nlm.nih.gov/. [61] The World Bank. World bank open data[EB/OL]. https://data.worldbank.org/. [62] YUE Z, ZENG H, SHANG L, et al. Retrieval augmented fact verification by synthesizing contrastive arguments [A]. 2024. [63] ZHOU J, LU T, MISHRA S, et al. Instruction-following evaluation for large language models[A]. 2023. [64] JANG D, AHN Y, SHIN H. RCScore: Quantifying response consistency in large language models[C/OL]//CHRISTODOULOPOULOS C, CHAKRABORTY T, ROSE C, et al. Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. Suzhou, China: Association for Computational Linguistics, 2025: 5701-5719. https://aclanthology.org/2025.emnlp-main.290/. DOI: 10.18653/v1/2025.emnlp-main.290. [65] CHEN M. Evaluating large language models trained on code[A]. 2021. [66] CHIANG W L, ZHENG L, SHENG Y, et al. Chatbot arena: An open platform for evaluating llms by human preference[C]//Forty-first International Conference on Machine Learning. 2024. [67] JIN Z, LALWANI A, VAIDHYA T, et al. Logical fallacy detection[A]. 2022. [68] GAO L, MADAAN A, ZHOU S, et al. Pal: Program-aided language models[C]//International Conference on Machine Learning. PMLR, 2023: 10764-10799. [69] LIGHTMAN H, KOSARAJU V, BURDA Y, et al. Let’s verify step by step[C]//The Twelfth International Conference on Learning Representations. 2023. [70] ZHANG Z, ZHENG C, WU Y, et al. The lessons of developing process reward models in mathematical reasoning [A]. 2025. [71] AZARIA A, MITCHELL T. The internal state of an llm knows when it’s lying[A]. 2023. [72] BURNS C, YE H, KLEIN D, et al. Discovering latent knowledge in language models without supervision[A]. 2022. [73] SHINN N, CASSANO F, GOPINATH A, et al. Reflexion: Language agents with verbal reinforcement learning[J]. Advances in Neural Information Processing Systems, 2023, 36: 8634-8652. [74] REIMERS N, GUREVYCH I. Sentence-bert: Sentence embeddings using siamese bert-networks[A]. 2019. [75] GAO T, YAO X, CHEN D. Simcse: Simple contrastive learning of sentence embeddings[A]. 2021. [76] CHURCH K, HANKS P. Word association norms, mutual information, and lexicography[J]. Computational linguistics, 1990, 16(1): 22-29. [77] LI J, JURAFSKY D. Neural net models of open-domain discourse coherence[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 198-209. [78] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3 (Jan): 993-1022. [79] GROOTENDORST M. Bertopic: Neural topic modeling with a class-based tf-idf procedure[A]. 2022. [80] HOLTZMAN A, BUYS J, DU L, et al. The curious case of neural text degeneration[A]. 2019. [81] LIN C Y. Rouge: A package for automatic evaluation of summaries[C]//Text summarization branches out. 2004:74-81. [82] ZHENG L, CHIANG W L, SHENG Y, et al. Judging llm-as-a-judge with mt-bench and chatbot arena[J]. Advances in neural information processing systems, 2023, 36: 46595-46623. [83] HAVRILLA A, IYER M. Understanding the effect of noise in llm training data with algorithmic chains of thought [A]. 2024. [84] ZHU K, FENG X, DU X, et al. An information bottleneck perspective for effective noise filtering on retrieval-augmented generation[A]. 2024. [85] MALLEN A, ASAI A, ZHONG V, et al. When not to trust language models: Investigating effectiveness of parametric and non-parametric memories[C]//Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023: 9802-9822. [86] ZHOU C, LIU P, XU P, et al. Lima: Less is more for alignment[J]. Advances in Neural Information Processing Systems, 2023, 36: 55006-55021. [87] SONG F, YU B, LANG H, et al. Scaling data diversity for fine-tuning language models in human alignment[A].2024. [88] LEE K, IPPOLITO D, NYSTROM A, et al. Deduplicating training data makes language models better[C/OL]//MURESAN S, NAKOV P, VILLAVICENCIO A. Proceedings of the 60th Annual Meeting of the Association forComputational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics,2022: 8424-8445. https://aclanthology.org/2022.acl-long.577/. DOI: 10.18653/v1/2022.acl-long.577. [89] WANG Z, WANG P, LIU K, et al. A Comprehensive Survey on Data Augmentation [J/OL]. IEEE Transactions on Knowledge & Data Engineering, 5555(01):1-20https://doi.ieeecomputersociety.org/10.1109/TKDE.2025.3622600. [90] MENG K, BAU D, ANDONIAN A, et al. Locating and editing factual associations in GPT[J]. Advances in Neural Information Processing Systems, 2022, 35. [91] YAO Y, WANG P, TIAN B, et al. Editing large language models: Problems, methods, and opportunities[C/OL]//BOUAMOR H, PINO J, BALI K. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2023: 10222-10240. https://aclanthology.org/2023.emnlp-main.632/. DOI: 10.18653/v1/2023.emnlp-main.632. [92] GAO Y, XIONG Y, GAO X, et al. Retrieval-augmented generation for large language models: A survey: abs/2312.10997[A/OL]. 2023. https://api.semanticscholar.org/CorpusID:266359151. [93] LEWIS P, PEREZ E, PIKTUS A, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks: abs/2005.11401[A/OL]. 2020. https://api.semanticscholar.org/CorpusID:218869575. [94] KARPUKHIN V, OGUZ B, MIN S, et al. Dense passage retrieval for open-domain question answering[C/OL]//WEBBER B, COHN T, HE Y, et al. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Online: Association for Computational Linguistics, 2020: 6769-6781. https://aclanthology.org/2020.emnlp-main.550/. DOI: 10.18653/v1/2020.emnlp-main.550. [95] BORGEAUD S, MENSCH A, HOFFMANN J, et al. Improving language models by retrieving from trillions of tokens[C/OL]//International Conference on Machine Learning. 2021. https://api.semanticscholar.org/CorpusID:244954723. [96] DENG Y, ZHAO Y, LI M, et al. Don’t just say “I don’t know”! self-aligning large language models for responding to unknown questions with explanations[C/OL]//AL-ONAIZAN Y, BANSAL M, CHEN Y N. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. Miami, Florida, USA: Association for Computational Linguistics, 2024: 13652-13673. https://aclanthology.org/2024.emnlp-main.757/. DOI: 10.18653/v1/2024.emnlp-main.757. [97] HUANG L, FENG X, MA W, et al. Alleviating Hallucinations from Knowledge Misalignment in Large Language Models via Selective Abstention Learning[C]//Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025: 24564-24579. [98] HUANG L, FENG X, MA W, et al. Improving contextual faithfulness of large language models via retrieval heads-induced optimization[A]. 2025. [99] SHANGGUAN Z, DONG Y, WANG L, et al. Exploring and mitigating fawning hallucinations in large language models[J]. Neurocomputing, 2025: 132166. [100] OUYANG L, WU J, JIANG X, et al. Training language models to follow instructions with human feedback: abs/2203.02155[A/OL]. 2022. https://api.semanticscholar.org/CorpusID:246426909. [101] GUNEL B, DU J, CONNEAU A, et al. Supervised contrastive learning for pre-trained language model fine-tuning [C/OL]//International Conference on Learning Representations. 2021. https://openreview.net/forum?id=cu7IUiOhujH. [102] ROBINSON J D, CHUANG C Y, SRA S, et al. Contrastive learning with hard negative samples[C/OL]// International Conference on Learning Representations. 2021. https://openreview.net/forum?id=CR1XOQ0UTh-. [103] WANG Z, ZHONG W, WANG Y, et al. Data management for training large language models: A survey[A/OL]. 2024. arXiv: 2312.01700. https://arxiv.org/abs/2312.01700. [104] ZHOU T, CHEN Y, CAO P, et al. Oasis: Data curation and assessment system for pretraining of large language models: abs/2311.12537[A/OL]. 2023. https://api.semanticscholar.org/CorpusID:265308678. [105] KANG B, XIE S, ROHRBACH M, et al. Decoupling representation and classifier for long-tailed recognition[C/OL]// International Conference on Learning Representations. 2020. https://openreview.net/forum?id=r1gRTCVFvB. [106] YASUNAGA M, LESKOVEC J, LIANG P. LinkBERT: Pretraining language models with document links[C/OL]// MURESAN S, NAKOV P, VILLAVICENCIO A. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics, 2022: 8003-8016. https://aclanthology.org/2022.acl-long.551/. DOI: 10.18653/v1/2022.acl-long.551. [107] KHANDELWAL U, LEVY O, JURAFSKY D, et al. Generalization through memorization: Nearest neighbor language models[C/OL]//International Conference on Learning Representations. 2020. https://openreview.net/forum?id=HklBjCEKvH. [108] WANG Z, YANG E, SHEN L, et al. A comprehensive survey of forgetting in deep learning beyond continual learning[J/OL]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 47: 1464-1483. https: //api.semanticscholar.org/CorpusID:259951356. [109] WANG L, ZHANG X, SU H, et al. A comprehensive survey of continual learning: Theory, method and application [J/OL]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 46: 5362-5383. https://api.semanticscholar.org/CorpusID:256459333. [110] LI H, DING L, FANG M, et al. Revisiting catastrophic forgetting in large language model tuning[C/OL]//ALONAIZAN Y, BANSAL M, CHEN Y N. Findings of the Association for Computational Linguistics: EMNLP 2024. Miami, Florida, USA: Association for Computational Linguistics, 2024: 4297-4308. https://aclanthology.org/2024. findings-emnlp.249/. DOI: 10.18653/v1/2024.findings-emnlp.249. [111] LIN Y, LIN H, XIONG W, et al. Mitigating the alignment tax of RLHF[C/OL]//AL-ONAIZAN Y, BANSAL M, CHEN Y N. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. Miami, Florida, USA: Association for Computational Linguistics, 2024: 580-606. https://aclanthology.org/2024.emnlp-main.35/. DOI: 10.18653/v1/2024.emnlp-main.35. [112] SPRINGER J M, GOYAL S, WEN K, et al. Overtrained language models are harder to fine-tune[C/OL]//Forty-second International Conference on Machine Learning. 2025. https://openreview.net/forum?id=YW6edSufht. [113] WANG Z, SHI Z, ZHOU H, et al. Towards objective fine-tuning: How LLMs’ prior knowledge causes potential poor calibration?[C/OL]//CHE W, NABENDE J, SHUTOVA E, et al. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vienna, Austria: Association for Computational Linguistics, 2025: 14830-14853. https://aclanthology.org/2025.acl-long.722/. DOI: 10.18653/v1/2025.acl-long.722. [114] JI J, WANG K, QIU T A, et al. Language models resist alignment: Evidence from data compression[C]//Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025:23411-23432. [115] CHANGALIDIS A, HÄRMÄ A. Capacity matters: a proof-of-concept for transformer memorization on real-world data[C/OL]//JIA R, WALLACE E, HUANG Y, et al. Proceedings of the First Workshop on Large Language Model Memorization (L2M2). Vienna, Austria: Association for Computational Linguistics, 2025: 227-238. https://aclanthology.org/2025.l2m2-1.17/. DOI: 10.18653/v1/2025.l2m2-1.17. [116] MORRIS J X, SITAWARIN C, GUO C, et al. How much do language models memorize: abs/2505.24832[A/OL]. 2025. https://api.semanticscholar.org/CorpusID:279070758. [117] TISHBY N, ZASLAVSKY N. Deep learning and the information bottleneck principle[J/OL]. 2015 IEEE Information Theory Workshop (ITW), 2015: 1-5. https://api.semanticscholar.org/CorpusID:5541663. [118] LI H, DING L, FANG M, et al. Revisiting catastrophic forgetting in large language model tuning[A]. 2024. [119] LIN Y, LIN H, XIONG W, et al. Mitigating the alignment tax of rlhf[C]//Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. 2024: 580-606. [120] ZHOU C, CAO P, LI J, et al. Scaling laws for task-stratified knowledge in post-training quantized large language models: abs/2508.18609[A/OL]. 2025. https://api.semanticscholar.org/CorpusID:280869868. [121] WELLER O, BORATKO M, NAIM I, et al. On the theoretical limitations of embedding-based retrieval[A]. 2025. [122] LIN Y, LIN H, XIONG W, et al. Mitigating the alignment tax of rlhf[C]//Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. 2024: 580-606. [123] SHI D, JIN R, SHEN T, et al. Ircan: Mitigating knowledge conflicts in llm generation via identifying and reweighting context-aware neurons[J]. Advances in Neural Information Processing Systems, 2024, 37: 4997-5024. [124] JIN Z, CAO P, YUAN H, et al. Cutting off the head ends the conflict: A mechanism for interpreting and mitigating knowledge conflicts in language models[A]. 2024. [125] GOYAL S, BAEK C, KOLTER J Z, et al. Context-parametric inversion: Why instruction finetuning can worsen context reliance[A]. 2024. [126] HU E J, SHEN Y, WALLIS P, et al. Lora: Low-rank adaptation of large language models.[J]. ICLR, 2022, 1(2): 3. [127] CHANGALIDIS A, HÄRMÄ A. Capacity matters: a proof-of-concept for transformer memorization on real-world data[A]. 2025. [128] MORRIS J X, SITAWARIN C, GUO C, et al. How much do language models memorize?[A]. 2025. [129] DRAXLER F, VESCHGINI K, SALMHOFER M, et al. Essentially no barriers in neural network energy landscape [C]//International conference on machine learning. PMLR, 2018: 1309-1318. [130] XU Y, LI X C, LI L, et al. Visualizing, rethinking, and mining the loss landscape of deep neural networks[A]. 2024. [131] KABIR S, ESTERLING K, DONG Y. Beyond the surface: Probing the ideological depth of large language models [A]. 2025. [132] DARM P, RICCARDI A. Hsi: Head-specific intervention can induce misaligned ai coordination in large language models[A]. 2025. [133] LI J, KIM J E. Superficial safety alignment hypothesis[A]. 2024. [134] JIANG Y, HUANG J, YUAN Y, et al. Risk-sensitive rl for alleviating exploration dilemmas in large language models[A]. 2025. [135] SAHOO P, SINGH A K, SAHA S, et al. A systematic survey of prompt engineering in large language models: Techniques and applications[A]. 2024. [136] GAO M, LU T, YU K, et al. Insights into llm long-context failures: when transformers know but don’t tell[C]// Findings of the Association for Computational Linguistics: EMNLP 2024. 2024: 7611-7625. [137] CHENG J, LU Y, GU X, et al. Autodetect: Towards a unified framework for automated weakness detection in large language models[A]. 2024. [138] AGRAWAL A, ALAZRAKI L, HONARVAR S, et al. Enhancing llm robustness to perturbed instructions: An empirical study[A]. 2025. [139] FIGUEIREDO V. Fuzzy, Symbolic, and Contextual: Enhancing LLM Instruction via Cognitive Scaffolding[A]. 2025. [140] WU M, LIU Z, YAN Y, et al. RankCoT: Refining Knowledge for Retrieval-Augmented Generation through Ranking Chain-of-Thoughts[A]. 2025. [141] YAO S, YU D, ZHAO J, et al. Tree of thoughts: Deliberate problem solving with large language models[J]. Advances in neural information processing systems, 2023, 36: 11809-11822. [142] TRIVEDI H, BALASUBRAMANIAN N, KHOT T, et al. Interleaving retrieval with chain-of-thought reasoning for knowledge-intensive multi-step questions[C]//Proceedings of the 61st annual meeting of the association for computational linguistics (volume 1: long papers). 2023: 10014-10037. [143] TURPIN M, MICHAEL J, PEREZ E, et al. Language models don’t always say what they think: Unfaithful explanations in chain-of-thought prompting[J]. Advances in Neural Information Processing Systems, 2023, 36:74952-74965. [144] SIVAPRASAD S, KAUSHIK P, ABDELNABI S, et al. A theory of response sampling in llms: Part descriptive and part prescriptive[C]//Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics(Volume 1: Long Papers). 2025: 30091-30135. [145] ZHANG B, LIU Y, DONG X, et al. Booststep: Boosting mathematical capability of large language models via improved single-step reasoning[A]. 2025. [146] PEEPERKORN M, KOUWENHOVEN T, BROWN D, et al. Is temperature the creativity parameter of largelanguage models?[A]. 2024. [147] HE Y, LI S, LIU J, et al. Can large language models detect errors in long chain-of-thought reasoning?[C]//Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).2025: 18468-18489. [148] YOU W, XUE A, HAVALDAR S, et al. Probabilistic soundness guarantees in llm reasoning chains[C]//Proceedingsof the 2025 Conference on Empirical Methods in Natural Language Processing. 2025: 7517-7536. [149] BANERJEE D, SURESH T, UGARE S, et al. Crane: Reasoning with constrained llm generation[A]. 2025. [150] DU J, HOU G, FU Y, et al. Active Confusion Expression in Large Language Models: Leveraging World Modelstoward Better Social Reasoning[A]. 2025. [151] PATHER K, HADJIGEORGIOU E, KRASNIQI A, et al. Vis-CoT: A Human-in-the-Loop Framework for InteractiveVisualization and Intervention in LLM Chain-of-Thought Reasoning[A]. 2025. [152] WANG X, WEI J, SCHUURMANS D, et al. Self-consistency improves chain of thought reasoning in languagemodels[A]. 2022. [153] KNAPPE T, LI R, CHAUHAN A, et al. Enhancing Language Model Reasoning via Weighted Reasoning in Self-Consistency[A]. 2024: arXiv-2410.
编辑:李启明初审:张 羽复审:冯骁骋终审:单既阳
哈尔滨工业大学社会计算与交互机器人研究中心
理解语言,认知社会 以中文技术,助民族复兴
——将非结构化的研究资料合成(Synthesizing)为学术手稿,是人工智能驱动的科学发现(AI-driven scientific discovery)中一项至关重要却尚未得到充分探索的挑战。现有的自动化写作系统往往与特定的实验流水线强耦合,且生成的文献综述流于表面。为此,我们提出了 PaperOrchestra:一种用于自动化 AI 学术论文撰写的多智能体框架。该框架能够灵活地将不受限的撰写前材料(pre-writing materials)转化为达到投稿标准的 $\LaTeX$ 手稿,并包括全面的文献综合(literature synthesis)及生成的视觉内容(如实验图表和概念图)。为了评估系统性能,我们推出了 PaperWritingBench。这是首个标准化基准测试集,包含从 200 篇顶级 AI 会议论文中逆向提取的原始资料,并配套了一系列全自动评估工具。在双盲人工评估中,PaperOrchestra 的表现显著优于其他自动化基线模型,在文献综述质量上的绝对胜率领先 50%–68%,在手稿整体质量上领先 14%–38%。(项目主页:https://yiwen-song.github.io/paper_orchestra/)
大语言模型(LLMs)的飞速发展正推动人工智能从辅助工具向科学发现的积极参与者转型 (Eger et al., 2025)。尽管近期出现的端到端自主框架 (Lu et al., 2024; Yamada et al., 2025) 证实了自动化研究闭环的可行性,但要实现其全部潜力,仍受阻于一个关键步骤:如何将非结构化材料(如原始创意和实验日志)转化为严谨且达到投稿标准的学术手稿。
早期自动化学术写作的尝试主要依赖于 LLM 的参数记忆,这往往导致事实性幻觉。为了缓解这一问题,近期的框架开始采用检索增强生成(RAG)方法。诸如 AutoSurvey2 (Wu et al., 2025) 和 LiRA (Go et al., 2025) 等系统,通过将文献综述过程分解为结构化阶段或模拟人类评审流程的专业智能体角色来实现。然而,这些专门针对综述开发的框架缺乏将原始实验数据转化为完整研究论文的能力。 另一方面,全生命周期自主研究智能体(full-lifecycle autonomous research agents)与其实验闭环紧密耦合,导致其无法作为独立的写作工具来处理人类提供的材料。实证评估显示,这些智能体在文献综合方面存在严重缺陷 (Beel et al., 2025; Tang et al., 2025b)。由于依赖简单的关键词搜索,这些智能体生成的综述往往流于表面且引用不足。此外,它们缺乏生成概念图的能力,使得视觉呈现仅限于代码生成的实验数据图表。再者,由于缺乏标准化的基准测试,独立评估自动化写作质量仍然困难重重。 为了填补这些空白,我们的核心贡献如下: * PaperOrchestra:一个独立的、多智能体协同框架,能够利用不受限的撰写前材料自主创作 $\LaTeX$ 手稿。该框架通过专业智能体进行深度的文献综合,生成实验图表与概念图,并迭代优化手稿以提升技术清晰度。 * PaperWritingBench:首个针对 AI 学术论文撰写的标准化基准测试集。该基准通过提供从 200 篇顶级 AI 会议论文中逆向提取的原始资料(包括创意和实验日志),实现了对写作任务的独立评测。 * 性能表现:在对照人工评估中,PaperOrchestra 的表现显著优于自主基线模型。在文献综述综合方面,其绝对胜率领先(即我方胜率与基线胜率之差)达 50%–68%;在手稿整体质量上,绝对胜率领先 14%–38%。
摘要——人工智能生成内容(AIGC)的飞速发展彻底改变了视频生成领域。从以 OpenAI 的 Sora、Google 的 Veo3 和字节跳动的 Seedance 为代表的封闭源代码先驱,到以 Wan 和混元视频(HunyuanVideo)为代表的强大开源竞争者,这些系统已能够合成时序连贯且语义丰富的视频。这些进步为构建模拟现实世界动态的“世界模型”铺平了道路,其应用涵盖娱乐、教育及虚拟现实等多个领域。然而,现有的视频生成综述往往聚焦于狭窄的技术领域(如生成对抗网络 GAN 或扩散模型)或特定任务(如视频编辑),缺乏对该领域演进过程的全面视角,尤其是在自回归(AR)模型及多模态信息整合方面。 为填补这些空白,本综述首先对视频生成技术的发展进行了系统性回顾,追踪了其从早期的 GAN 演进到主流的扩散模型,并进一步向新兴的基于自回归及多模态技术发展的历程。我们对底层原理、关键进展以及各自的优劣势进行了深入分析。随后,我们探讨了多模态视频生成的新兴趋势,强调了通过整合多样化数据类型以增强上下文感知能力。最后,通过衔接历史发展与当代创新,本综述提出了相关见解,旨在指导视频生成及其应用(包括虚拟/增强现实、个性化教育、自动驾驶仿真、数字娱乐及高级世界模型)在这一快速演进领域的未来研究。更多细节请参阅项目页面:https://github.com/sjtuplayer/Awesome-Video-Foundations。 索引词——视频生成,生成对抗网络 (GAN),扩散模型,自回归模型,多模态生成
人工智能生成内容(AIGC)的迅猛发展与广泛普及,在扩散模型 [1]–[3] 的主要驱动下,显著改变了视频生成的格局。当代闭源系统如 OpenAI 的 Sora [4]、Google 的 Veo3 [5] 和字节跳动的 Seedance [6],以及具有影响力的开源模型如 Wan [7] 和混元视频(HunyuanVideo)[8],在合成时序连贯且语义丰富的视频方面展现了前所未有的能力。这些多元化的进展预示着构建可交互“世界模型”(world models)的宏伟前景——即通过对环境的全面表征,使机器能够以类似于人类认知的方式理解、预测并与世界互动。这些进步不仅重新定义了内容创作的工作流,还为视频生成中物理与社会动力学的模拟提供了新范式,为世界建模开辟了新路径,并为以卓越的精度和创造力创作及操控视频内容提供了前所未有的机遇。这些进展的影响是深远的,它们不仅增强了内容创作者的能力,还为娱乐、教育和虚拟现实等多个领域的研究与应用开辟了新途径。 现有的视频生成综述主要集中于特定方面或应用 [9], [10],缺乏对视频生成领域的全面且长期的视角。虽然部分研究 [11]–[13] 孤立地探讨了基于 GAN 或基于扩散的方法,但其他研究则侧重于特定任务,如视频编辑 [14]、人物视频生成 [10] 以及长视频生成 [9]。这些工作通常未能分析视频生成技术的宏观演进,也忽略了对不同方法论(如 GANs [15]、扩散模型 [1] 和自回归 (AR) 方法)随时间推移的优劣势对比。此外,针对基于 AR 的视频生成,特别是其在多模态潜力背景下的深入探索仍显著缺失。随着多模态方法日益凸显,视觉生成与理解的整合变得愈发重要,然而这种融合在现有文献中尚未得到充分探讨。因此,一份能够衔接历史发展与新兴趋势,并批判性地评估不同技术范式间相互作用的全面综述,对于引导这一快速发展领域的未来研究与应用至关重要。 针对上述空白,我们提出了一项全面的综述,追踪视频生成从 GANs [15], [16] 到当前主流的扩散模型 [1]–[3],再到极具前景的基于 AR 和多模态生成技术 [17], [18] 的演进历程。本综述旨在对视频生成的过去、现在和未来进行深入分析,比较各种架构的发展轨迹与优势。通过这种方式,我们力求为不同视频生成方法论的相对优势和局限性提供有价值的见解。我们的综述将涵盖每种方法的基础原理,阐述关键进展,并讨论这些技术对未来研究和应用的深远影响。我们还将探讨多模态生成的潜力,即通过多种数据类型和感官输入的整合,实现更复杂且具上下文感知能力的视频生成系统。通过这一全面分析,我们旨在弥补现有文献的不足,提供对视频生成格局的透彻理解,并为这一充满活力且快速发展的领域提供未来研发指南。
研究范围:本综述聚焦于三种主流的视频生成范式——基于 GAN、基于扩散和基于自回归(AR)的方法,并对每种方法论的基础原理、关键进展以及相对优劣势进行了深入分析。此外,我们探讨了多模态视频生成的新兴趋势,强调整合多种数据类型和感官输入以提升视频生成模型的上下文感知能力和复杂程度。不同于以往常聚焦于特定层面 [11]–[13] 或应用 [9], [14] 的综述,本研究涵盖了更广泛的技术模型和方法论,特别是重点介绍了强有力的基于扩散的方法和极具前景的基于 AR 的方法。通过衔接历史轨迹与当代创新,本综述旨在为不断发展的视频生成领域提供宝贵的见解和研究指南。 * 综述框架:在第 2 节中,我们涵盖了基础视频生成模型的主要背景知识。随后,在第 3 节中,我们概述了视频生成领域开发的方法。在第 4 节中,我们介绍了当前领先的视频生成模型及主要基准测试(benchmarks)。最后,在第 5 节中,我们深入探讨了视频生成下游任务的相关主要研究。
伊朗对无人机、网络工具及不对称战术的运用正在重塑现代战争。这场与以色列和美国的冲突凸显了从追求"主导权"转向注重"韧性"的转变——为国防战略提供了关键启示。
当前涉及伊朗、以色列和美国的持续冲突标志着战争特征的转变——从以平台为中心的工业化时代作战,转向网络化、算法驱动和经济不对称的竞争。
尽管以色列和美国在常规军事力量——空中优势、精确打击能力和一体化指挥系统——方面保持着压倒性优势,但伊朗已展现出通过创新运用新兴技术和非常规战略来抵消这种不平衡的显著能力。
其结果并非任何一方的决定性胜利,而是一场持久的较量,其中技术扩散和战略适应模糊了强弱之间的界限。
这一转变的核心在于将人工智能、网络战、无人系统和信息作战融合进单一的作战空间。这场战争日益呈现出人工智能赋能冲突的轮廓,其中决策周期、目标选择过程和认知管理既受人脑判断影响,也同样由算法系统塑造。
美国和以色列利用先进技术巩固了其传统优势。人工智能已被整合进情报处理和目标选定系统,使得快速分析海量数据流并对高价值目标实施精确打击成为可能。这已转化为高效"斩首"战略,包括利用人工智能辅助识别并清除伊朗战略机构内的领导层目标。
与此同时,网络行动与动能打击同步进行,瞄准伊朗的数字基础设施、通信平台和对外公共系统,以破坏其治理并制造内部不稳定。这反映了一种成熟的混合战争理念,即网络域与物理域为实现战略目标而同步行动。
然而,这种技术精密化途径的局限性日益明显。尽管进行了大规模空袭和定点清除,但颠覆政权的更广泛政治目标依然难以实现。这凸显了现代战争的一个核心悖论:技术优势,无论多么压倒性,并不自动转化为政治上的成功。
伊朗对这种不对称性的回应兼具适应性和创新性。德黑兰并未选择与美国-以色列联盟进行对称性对抗,而是采取了一种分层战略,将低成本技术与系统性破坏相结合。该途径最显著的特征之一是广泛使用相对廉价的无人航空器。
例如"沙希德"无人机等系统已被用于打击地区目标和美国资产,通过迫使技术先进的对手消耗不成比例的昂贵防御资源,形成了一种经典的成本不对称。这种"成本强加"逻辑,是旨在侵蚀先进军事系统经济可持续性的刻意尝试。
在防御领域,伊朗已展现出向混合型、韧性防空架构的显著转变。它不再完全依赖易受压制和电子战影响的雷达系统,而是部署了多光谱和无源传感技术网络,能够在不发射可探测信号的情况下跟踪飞机。这种向低信号特征传感技术的转变,使对手的目标定位复杂化,并增强了在对抗性电磁环境中的生存能力。
然而,或许最具深远影响的创新在于作战空间向数字基础设施领域的扩展。伊朗的行动日益将数据中心、通信网络和全球数字生态系统的组成部分作为目标。
这反映了一种认识,即现代战争的重心已超越军事设施,延伸到支撑当代社会的底层数字和经济系统。对此类基础设施的破坏会产生连锁效应,可同时使金融体系、物流网络和治理机制瘫痪。
与这些发展并行的是网络战和信息战日益增长的重要性。伊朗及其关联行为体已展现出对关键基础设施和企业系统发动网络攻击的能力,同时还利用生成式人工智能放大了虚假信息宣传。
在此背景下,冲突不仅仅是军事能力的较量,也是围绕叙事、认知和心理影响力的斗争。认知域已成为一个关键的作战空间,塑造全球舆论和国内士气能够产生切实的战略优势。
伊朗持续依赖分布式和代理人战争进一步说明了其战略适应性。通过地区行为体、干扰航运航道和经过校准的升级等间接方式与对手交锋,德黑兰得以横向扩展冲突,同时避免决定性对抗。这种方法分散了风险,使归因复杂化,并给对手制造了战略困境。
综上所述,这些发展指向一种可称之为"系统性战争"的冲突模式的出现——即以整个系统而非单个平台为打击目标的冲突方式。军事行动如今与经济破坏、数字破坏和认知操控交织在一起。在这种框架下,胜利不再仅仅由战场主导权定义,而取决于削弱对手整体系统韧性的能力。
对于其他热点区域而言,这种演变中的范式所带来的影响既是紧迫的,也是深远的。这场冲突凸显了发展能够补充常规军力的不对称能力的必要性。对无人机蜂群、巡飞弹和先进电子战平台等低成本、高影响系统的投资,有可能产生不成比例的战略效应。
同时,这场冲突所凸显的数字基础设施脆弱性,要求重新定义国家安全优先事项。必须将数据中心、云系统和数字公共基础设施的保护纳入国防规划,尤其是在数字经济不断扩张的背景下。
将人工智能整合进军事决策过程是另一项关键要求。情报融合、自主系统和算法目标选定正成为现代作战的核心。然而,采用这些技术必须伴随清晰的作战条令和伦理保障,以确保技术进步不会超越战略判断。
同样重要的是认识到,网络战和信息战已成为主要冲突域。必须发展强大的进攻性和防御性网络能力,同时加强抵御虚假信息和认知操控的韧性。这不仅需要技术投入,还需要军方、情报机构和文职部门之间的机构协调。
这场冲突进一步强化了多域融合的重要性。陆、空、海、网络和太空之间的界限日益模糊,需要一个统一的作战框架。在此背景下,当前在联合作战和战区建设方面的工作获得了新的紧迫性,因为跨域有效协调已成为战略成功的先决条件。
然而,或许最深刻的启示是概念性的。伊朗的经验表明,韧性、适应性和战略耐心可以抵消常规劣势。现代战争的目标不再是绝对主导,而是持久、适应和长期施加成本的能力。生存本身即成为一种战略成功。
因此,伊朗-以色列-美国战争代表了军事史上的一个过渡时刻,揭示了一个技术优势必要但非充分的世界,其中较弱的行为体可以利用创新和不对称性来挑战更强的对手,战场已延伸至数字和认知领域。
挑战不仅在于获取新技术,更在于将其整合进一个连贯的战略框架,该框架应优先考虑韧性、适应性和系统性思维。在这一新兴范式中,决定性优势将不属于最强者,而属于最具适应性者。
参考来源:ETGovernment
军事力量目前正在开发和部署移动自组网络电台,该电台能够连接在崎岖地形上远距离行动的高度机动部队。尽管这些电台具备包括高数据速率和自动业务中继在内的强大能力,但它们易受来自友军和平民部队的无意干扰,以及日益复杂、意图争夺电磁频谱使用的对手行动的影响。本文扩展了之前的工作,以应对当对手蓄意干扰某个战场单位时,为电台分配新信道的挑战。开发了一种基于局部邻域搜索的约束规划算法,该算法仅依赖直接邻居通信。算法仅在需要获得可行解时,才扩大局部邻域的规模。与其他可能需要数千次通信步骤和修订才能收敛的基于智能体的方法(例如分布式约束优化)不同,该方法能在极少的迭代次数和极短的运行时间内收敛到一个可证明的近似最优解。在所有情况下,都使用基于美国海军陆战队大型战斗想定开发的真实数据集。
美军特种作战部队参与大规模作战行动时,在拒止环境中实现纵深打击能力方面面临关键挑战。传统的战术级特种作战部队缺乏建制内的远程精确打击平台,转而依赖在对抗性战场中可能无法获得或不实用的常规系统。本文探讨了如何使用商用现货材料构建的低成本战术导弹,以增强特种作战部队在大规模作战行动期间的作战范围和纵深打击能力。借鉴近期俄罗斯-乌克兰冲突中的创新经验教训,本文分析了高成本系统(如高机动性炮兵火箭系统)与廉价、模块化、基于商用现货的无人机在影响纵深作战中的互补作用。通过构建和测试一种商用现货低成本战术导弹,本研究从特种作战部队操作者的角度探讨了构建和使用此类系统的可行性。研究结果强调了这些系统在扩展特种作战部队在拒止环境中的影响力、同时使对手的目标定位和决策复杂化方面的潜力。最终,本文主张将模块化、低成本导弹技术整合到特种作战部队装备体系中,为在未来大规模作战环境中保持精确打击优势提供一种可扩展的解决方案。
军事系统正日益采用基于机器学习的解决方案,以提高其所提供产品与服务的速度、质量和成本效益。学习型模型为开发可能优于使用手工编码算法构建的复杂系统的能力提供了可能性。然而,机器学习技术日益增长的复杂性,使得难以确保机器学习模型在可靠性、鲁棒性和安全性方面的行为。将两种不同的正交性保证方法结合已显现出价值,并且在不久的将来,支持这种组合方法的工具将被开发出来。
军事系统正日益采用基于机器学习的解决方案,以提高其所提供产品与服务的速度、质量和成本效益。学习型模型为开发可能优于使用手工编码算法构建的复杂系统的能力提供了可能性。然而,机器学习技术日益增长的复杂性,使得难以确保机器学习模型在可靠性、鲁棒性和安全性方面的行为。对于使用机器学习模型的系统而言,这通常是一个更棘手的问题,因为大多数为传统编码能力开发的软件保证流程并不适用。虽然这对许多应用而言可能不是严重问题,但那些在关键任务场景下由军方使用的系统则需要更高级别的保证。在安全相关系统领域,长期以来存在着研究保证的文化。这些工作的成果包括美国国防部采用的“严格等级”方法[,以及许多其他组织(包括美国国家航空航天局)使用的基于“可靠性论证”的方法。严格等级方法根本上试图证明在能力开发过程中已采取了适当程度的审慎措施。可靠性论证则基于法律案件的论证思路。通过论证展示顶层的安全主张如何得到客观证据的支持。此类保证论证将人员、流程与技术一并纳入考量。由于可靠性论证基于法律案件,并首先应用于工程安全领域,很自然地,它们也可用于论证人工智能能力的合法和/或伦理使用。同样地,可以论证,无论是严格等级方法还是保证论证,都可应用于保证关键任务系统,而不论需要防范的风险类型为何,其目的都是为了确保任务完成。
本文探讨了开发一种用于培训战时急救及应对民用基础设施损毁情况的智能虚拟与增强现实系统概念。所提出的VR/AR解决方案能够模拟包括创伤、大规模爆炸、烧伤以及心肺复苏在内的多种紧急情况。此外,它还通过运用现代游戏引擎与VR控制器,实现了与受害者的互动式交互。论文阐述了该系统的功能,包括真实场景模拟、教学过程游戏化、用户操作自动评估以及与医疗分类系统的集成。同时,描述了利用生成式AI模型(如Stable Diffusion, Leonardo.Ai, Trellis3D, Meshy, Sloyd)来生成2D和3D内容,这为训练场景的快速可视化和原型设计提供了支持。研究结果表明,引入此类技术能够有效提升医生、军事人员、志愿者及平民的培训效率,降低紧急事件中的恐慌程度,并在安全条件下培养实用的急救技能。
在现代军事行动中,确保在对抗性或基础设施欠缺环境下的韧性及安全通信,仍是一项战略优先任务。对流层散射系统因其能够在不依赖卫星或地面基础设施的情况下提供超视距通信能力,正重新获得关注。本文探讨了对流层散射系统在军事通信网络中的作用,介绍了当前对流层散射系统的能力,并对该技术的进展(例如自适应波束成形与多输入多输出正交频分多址架构)进行了分析。基于这些分析,本研究进一步探索了将正交时频空调制技术应用于对流层通信。在严重多径条件下进行的初步仿真表明,正交时频空调制技术的性能优于传统的正交频分复用技术,能够提供更好的信号完整性、更低的误差矢量幅度以及更高的频谱效率。这些结果表明,采用正交时频空调制的对流层散射系统有望提升现有军事通信网络的性能,尤其在易受干扰的环境中。
军事行动常常要求在高度威胁、高后果的环境中,于限定时间内针对环境威胁做出关键决策并采取行动。相关人员能否对相应威胁或非威胁做出恰当反应,依赖于一系列人为因素的综合作用,包括对视觉威胁刺激的准确识别与认知、情绪调节、反应选择及运动技能执行。因此,本文旨在探讨与城市作战训练课程表现相关的人为因素,并理解最有效的训练方法,以增强训练成果在实战武力使用行为与结果中的迁移效果。
第二章对已发表的、研究压力增加对射击技能表现影响的文献进行了系统性综述。荟萃分析的结果确认了压力对射击技能、反应时间和决策的负面影响,以及若干干预策略和经验产生的积极效应量。结果突出了压力的负面影响、相关经验的重要性,以及可采取的一些具有缓解效果的策略。
第三章研究了城市作战训练课程对敌对环境线索利用能力的影响,以评估线索利用与课程表现之间的关联。次要目标是,通过对比课程参与前后在线索利用任务上的表现,评估参与该训练课程导致的线索利用能力变化。本研究结果发现,个体线索利用表现与城市作战训练课程的成功或失败结果之间关联有限。课后评估显示,参与课程并未带来组间在线索利用能力上的变化,也未体现出经验对表现的益处。
第四章探讨了基于实景的城市作战训练课程结果,与战斗相关线索利用中的识别和认知成分之间的关系,并与接受使用靶场目标进行传统训练的对照组进行了比较。研究结果表明,基于不同训练方法或经验,参与者的线索利用识别与认知能力无显著差异。在线索利用方面,无论是参与课程还是训练,均未观察到组间效应或参与带来的变化,且训练参与在总体反应时间上仅观察到有限的显著改善。
第五章研究了参与者对训练相关视觉刺激物的识别与认知准确性,相比对预期在现实环境中可能遇到的刺激物,其表现提升的水平。还进行了一项次要比较,旨在比较个人在参加为期3周、旨在为近战做准备的军事战斗训练课程前后,在射击/不射击决策任务上个体反应的变化。本研究的总目标是检验训练环境、线索识别与认知、以及射击/不射击决策任务表现之间的关系。此项工作的结果突出表明,个体似乎在综合仅存在于训练环境中的特定线索,以关联并形成感知和行动。其中许多线索特征是训练环境所独有的,并不代表或在现实城市作战表现环境中出现。
本文呈现的研究成果共同填补了一个重要的知识空白,并有助于加深对视觉线索识别与认知,与高威胁、高后果城市作战环境中的决策及表现之间关联的理解。具体而言,本文证明:1) 个体识别与认知视觉线索以形成感知和行动的能力的发展,与学习环境中可获得的线索具有特定关联性;2) 有强烈迹象表明,在时间压力下个体在武力使用结果中的反应,是一种可能导致行动偏向的感知与行动耦合的下意识过程;以及 3) 因感知压力增加而导致的焦虑加剧,仍然是武力使用表现中出现错误的主要因素之一,但可通过适当的训练接触予以缓解。
无需浮出水面即能执行水下与濒海区域监视任务的能力,将提升潜艇的安全性及其作战能力。为降低潜艇暴露风险,本文提出一种创新的双模无人潜空系统及其作战概念。该双模无人潜空系统首先从水下潜艇释放,并在水下航行以与潜艇保持距离。随后,它将利用一种创新的推进系统出水,实现从水介质到空气介质的转换,目的在于执行预定的空中任务。空中任务完成后,双模无人潜空系统将重新潜入水中并巡航返回潜艇以待回收。
本研究旨在设计与开发能够实现所提作战概念的系统。项目着力于三个关键方面,即:i) 研究兼顾空气动力与水动力性能的优化构型;ii) 探索水/空介质间的有效转换;iii) 设计水/空混合推进系统。为实现在水与空气中的高效运行,研究考虑采用一种带有新型机翼展开机构的变后掠翼构型。通过数值模拟、水洞与风洞实验测试,评估了推进单元在水中的性能特性及其在空气中的空气动力特性。评估数据支持了双模航行器构型的可行性,稳定性分析表明该航行器在飞行中具有静稳定与动稳定特性。喷水推进转换系统由加压二氧化碳驱动,旨在实现从水到空的快速起飞转换。初步设计涵盖了采用经高保真数值模拟方法校准的解析模型进行的系统尺寸设计,以及推进单元中采用的特殊气体释放机制的设计。通过推力和发射实验验证了该转换推进系统的设计结果与适用性。定制化紧凑型混合推进系统的空中与水中实验结果证实了其能为飞行和水下巡航提供充足动力。
图1-1:任务剖面图
随着现代水下跟踪技术的持续发展,潜艇即使在潜航作业中也面临易于暴露的风险。为降低潜艇的暴露风险,本文提出一种创新的双模无人潜空系统及其作战概念。如图1-1的任务剖面图所示,潜艇配备有一部双模无人潜空系统。当需要执行监视、侦察或目标指示任务时,双模无人潜空系统从水下潜艇释放,在水下巡航足够距离而不暴露潜艇位置。随后它将上浮至近水面,利用喷水推进系统起飞离水,并重构为飞行状态以类似其他无人航空器的方式执行任务。飞行任务结束后,该航行器重构为水下作业模式,下潜并水下航行以被潜艇回收。若水-空与空-水转换发生在远离潜艇的位置,双模无人潜空系统将不会暴露潜艇的位置,从而保持其隐身性能。此外,该航行器可通过延长水下隐蔽时间降低自身被探测的风险,从而提高任务效能。换言之,双模无人潜空系统兼具小型无人航空器的快速机动能力与自主水下航行器的优异隐身性能。
鉴于其执行空中监视与水下数据采集的能力,双模无人潜空系统在民用市场亦具有显著潜力。这些特点提升了其在搜索救援、自然资源勘测等领域的应用价值。例如,当海洋发生石油泄漏时,此类航行器可对有毒污染物扩散范围进行绘图。由于该航行器能在空中快速移动并从水中采集样本,此能力使得搜索救援行动更高效。此外,该工具亦可用于海洋学研究中的样本采集与观测。据作者所知,目前尚无其他航行器能在单次任务中实现此类操作。需要提及的是,迄今为止美国和欧洲也提出了其他双模无人潜空系统概念,但它们大多处于设计阶段和/或子系统技术开发初期。本双模无人潜空系统的新颖之处在于,它集成了空中与海洋航行器的构型及推进系统等特征,以实现其在空气与水中均能高效运行的功能。基于该领域以往的研究和经验,本研究提出了一种原创概念。双模无人潜空系统的开发与测试将填补解决关键设计方面所需的知识空白,并应对本章后续提出的科学研究问题。整个研究过程中获得的数据和经验,有望为推进所提概念向更高的技术成熟度水平发展提供助力。
随着恐怖组织迅速采用无人机技术,萨赫勒地区局部叛乱与跨国安全威胁之间的界限日益模糊,这种转变正在以欧盟尚未充分认识的方式重塑冲突动态。“伊斯兰国”声称对近期尼日尔尼亚美机场的无人机袭击负责(Egbejule, 2026),该事件为了解这一转变已发展到何种程度提供了一个窗口。在这方面,Serwat(2026)强调了西非的“圣战”组织如何日益频繁地使用商用无人机,这标志着其正朝向低成本空战方向迈进。自2023年以来,已有超过100起案例被记录在案(Serwat, 2026):这种新近展现的能力,体现为近期对军事基地和关键基础设施的袭击,对欧洲的安全利益构成了间接但重大的风险。尽管该地区的恐怖主义威胁在激进化外溢、无序移民流动(Nasser, 2025)和经济影响(Horvath-Santha, 2024, p. 4)方面仍令人担忧,但“圣战”组织对无人机技术的快速整合,已为此威胁增添了一个更为严峻的维度,其影响不再局限于该地区,而是与欧洲安全日益相关。
本文认为,无人航空系统相关的知识和操作经验从中东武装组织向萨赫勒地区组织的转移,正在重塑地区冲突动态,并对欧盟产生直接的安全影响。本文第一节将从更广义的层面审视非国家行为体与武装无人机的使用,将中东定位为当前已延伸至非洲的知识转移链条的起点。随后,本文将转向在萨赫勒地区活动的两个主要恐怖组织,即“支持伊斯兰与穆斯林组织”(JNIM)和“伊斯兰国西非省”(ISWAP),分析其无人机能力与作战演进。聚焦欧盟安全影响的部分将指出,相对于威胁发展的速度和复杂程度,欧洲迄今的反应尚不充分。最后,结论部分将总结主要发现。
军方对人工智能军事技术的投资凸显了加强监管以维护国际人道法效力和保护平民的必要性,也暴露出现有治理框架在管理商业供应商方面的不足。
2021年5月的以色列-哈马斯冲突被以色列媒体描述为“世界首场人工智能战争”,其将多项新的人工智能系统整合进军用技术,从新的目标识别流程到增强型武器系统。自那时起,人工智能与军事技术的融合已突飞猛进,该地区各国都寻求将人工智能纳入其军事架构。这很大程度上涉及与商业实体的合作,从以色列初创公司到亚马逊、谷歌和微软等大型科技公司。由于这些实体已显示出规避其自我宣称的人权承诺和尽职调查义务的倾向,需要在武装冲突期间加强监管以保护平民生命和基础设施。
作为最易获得此项技术的参与者,以色列正在该地区率先部署人工智能军事技术,往往造成毁灭性影响。以色列首次大规模使用此类技术是在2021年5月的战争中,但其应用在2023年10月7日后呈指数级增长。在加沙战争的最初几周内,据报道名为“薰衣草”的人工智能决策支持系统被用于生成了一个包含37,000个个体目标的名单。
以色列大力投资于将人工智能整合到其军队中,从在国防部国防研究与发展局内设立人工智能与自主管理局,到使精英信号情报部队8200部队能够开发以色列国防军自有的人工智能工具。虽然人工智能已被集成到武器系统中以提高目标跟踪和杀伤率,如Smart Shooter公司的SMASH光学瞄准系统案例,但以色列最重要的创新在于开发人工智能决策支持系统。以色列人工智能决策支持系统的例子包括:根据与武装团体的疑似关联程度对个人进行目标评级的“薰衣草”系统;生成目标清单的“福音”系统;以及在潜在打击前追踪个人位置的“老爹在哪?”系统。尽管将人工智能集成到决策支持系统中使军队能够更快地分析数据并加速决策周期,但由于目标生成速度过快导致有效人工核查困难,以及机构倾向于依赖人工智能而非人工评估的高风险,这增加了出错的风险。
美国也在该地区部署这些技术。值得注意的是,美国国防部已使用人工智能决策支持系统在伊朗、伊拉克、叙利亚和也门境内识别目标。最近,“史诗怒火”行动在24小时内打击了伊朗境内1,000个目标。实现如此大规模快速目标选择的一个关键因素是美军使用了Palantir公司的Maven智能系统,该系统也集成了Anthropic公司的Claude人工智能,用于分析监视数据、创建目标清单并实现目标优先级排序。伊朗境内被打击的许多目标是民用设施,包括一所学校、医疗保健设施和居民区,这说明了快速生成目标的风险。作为回应,伊朗袭击了位于阿拉伯联合酋长国和巴林境内的亚马逊云科技数据中心,以“识别这些中心在支持敌人军事和情报活动中的作用”,这可能指的是在亚马逊云科技服务器上托管集成了Anthropic公司Claude人工智能的Palantir人工智能平台。
人脸识别软件是另一个主要应用案例。例如,以色列已在加沙和约旦河西岸两地推出了大规模人脸识别计划。在约旦河西岸,以色列国防军使用一系列系统访问名为“狼群”的数据库,该数据库存储巴勒斯坦人信息。安装在检查站的“红狼”系统和安装在以色列士兵智能手机上的“蓝狼”系统,会自动将巴勒斯坦人的生物特征数据录入“狼群”数据库,该数据库创建巴勒斯坦人的情报档案并与其国内安全机构辛贝特共享。此类广泛且非自愿的人脸识别计划违反了国际人权法的保护规定,包括隐私权(《公民及政治权利国际公约》第十七条)。
该地区其他参与者正试图追赶。伊朗前最高领袖赛义德·阿里·哈梅内伊曾呼吁该国“掌握人工智能”,尽管伊朗进展的细节无法独立核实。阿拉伯联合酋长国目前尚无实质的人工智能系统,但国有防务集团EDGE正在收购以色列人工智能无人机探测公司Thirdeye Systems 30%的股份,并开始与美国武器制造商Anduril组建合资企业,共同生产具备人工智能增强能力的无人机。土耳其武器制造商STM和Baykar Defense率先推出了配备人工智能图像处理软件的无人机;据报道,前者生产的Kargu无人机曾于2020年在利比亚攻击哈利法·哈夫塔尔将军的部队。
这些技术背后是一个庞大而复杂的商业供应商网络。其中一些是具有明确国家安全目的的公司,例如美国的Palantir和以色列的Corsight AI。以色列与Palantir于2024年签署了战略合作伙伴关系,以“利用Palantir的先进技术支持与战争相关的任务”。
然而,许多其他商业供应商并未将其人工智能功能专门训练用于特定安全或军事功能。亚马逊、Anthropic、谷歌、微软和OpenAI等大型科技公司已向包括美国和以色列在内的各国国防部提供人工智能产品。谷歌与以色列国防部2024年的一份合同草案凸显了后者预先存在的独家访问云基础设施的“着陆区”,以及为军事单位创建特定“着陆区”的新计划。
根据“卷云计划”的条款,以色列国有以色列航空航天工业公司和拉斐尔先进防御系统公司必须使用亚马逊和谷歌提供的云服务来满足其云计算需求。由于以色列在国际刑事法院和国际法院被指控犯有战争罪、危害人类罪和种族灭绝罪,其与商业供应商日益加深的合作可能使这些供应商面临国内和国际法框架下的责任风险。
国际法通过国际人道法及相关国际人权法保护,规范了武力的允许和禁止使用——包括涉及使用人工智能军事技术的行为。关键原则包括:区分军民,即区分平民和战斗员,并禁止直接以平民和民用物体为目标(《第一附加议定书》第四十八条和第五十二条;《核武器咨询意见》确认的习惯国际法);相称性,即禁止造成过度的平民伤害;必要性,即限制军事武力;以及隐私权。
虽然国际人道法治理框架针对并约束国家层面的行为体,但国家可以通过将这些规定实施并纳入其国内法律框架,并依据对国际犯罪的普遍管辖原则,为商业实体设定并强制执行义务。瑞典是允许以此种方式追究公司刑事责任的法域之一,目前正在对两名前能源高管涉嫌在苏丹协助和教唆战争罪进行审判。
然而,目前尚无具有约束力的国际法规来涵盖人工智能军事技术的特定风险和使用。相反,一系列宣言和决议的拼凑应对了人工智能与军事关联的某些方面。联合国大会关于人工智能军事技术的第79/239号决议确认,由人工智能赋能军事系统受国际人道法和国际人权法管辖。2023年11月由28个国家签署的《布莱切利宣言》呼吁基于国际合作进行负责任的创新。由美国主导、得到58个国家赞同的《负责任军事使用人工智能和自主性政治宣言》呼吁人工智能的军事用途遵守国际法,要求人类监督人工智能的使用,并呼吁各国采取措施尽量减少意外偏见。然而,这些文书的不具约束力性质,限制了其对人工智能军事技术使用施加法律和伦理约束的有效性。
许多商业人工智能供应商在其人权政策中明确提及《联合国工商业与人权指导原则》。这些原则指出,工商企业应“将造成或促成严重侵犯人权行为的风险视为法律合规问题”(原则第23(c)条),并引用未能如此行可能导致的民事责任和刑事责任。虽然这些原则不具有法律约束力,但将其纳入公司的人权政策,就创造了商业供应商应遵守的内部义务。
国内法域中的供应链尽职调查义务是商业实体可能面临诉讼的一条途径。人权非政府组织爱尔兰公民自由委员会已要求爱尔兰数据保护委员会调查其对微软代表以色列处理巴勒斯坦人群体监视数据的投诉。可以想见,未来诉讼可能扩展到人工智能的商业供应商。为此,一个法律倡导团体联盟最近通知微软,有“可信依据”认定该公司——通过向以色列提供服务——在“以色列对加沙巴勒斯坦人口犯下严重罪行中扮演了直接角色”,使微软在国际和国内法院层面面临民事和刑事责任风险。
在调查性报道披露以色列使用微软Azure服务器托管巴勒斯坦人群体监视数据后,一项外部调查发现,8200部队违反了微软的服务条款,存储了违反国际人权法的群体监视数据,包括被拦截的通话。尽管微软已终止8200部队的访问权限,但许多其他以色列实体仍保留对微软服务的访问权限。一群微软股东也提交了一项提案,要求调查微软就其技术被以色列使用所进行的人权尽职调查程序的力度,但该提案未获通过。
科技公司采用各种方法来规避公司治理机制。例如,OpenAI和谷歌已悄然更改其使用条款,插入“国家安全”豁免条款,并删除了禁止客户将人工智能用于武器和监视目的的承诺。与此同时,调查记者审查谷歌和亚马逊与以色列签订的12亿美元“卷云计划”合同时发现,合同包含限制谷歌和亚马逊限制以色列政府当局使用其技术能力的条款,据报道该交易包括一项条款,禁止亚马逊和谷歌在以色列被认定违反其服务条款时暂停以色列的访问权限。据报道,“卷云计划”还包括一项创建秘密“眨眼机制”的条款,亚马逊和谷歌承诺通过该机制向以色列秘密示意有第三国命令两家公司中的任何一家交出以色列数据。亚马逊和谷歌均否认了这些指控。
人工智能军事技术预计将继续在中东战场上扩散,扩大对平民和民用物体造成的损害,并加剧人道主义危机。其中许多技术也正在冲突区域外应用于预测性警务和大众公共监控,使潜在的国际人权法违规行为全球化。在缺乏充分问责的情况下,中东已成为人工智能军事技术的试验场,随后这些技术作为“经过实战检验”的产品在国际市场上销售。
包括海洋、濒海区域、港口、关键水下基础设施(CUI)以及内陆水道在内的海上环境,对国家的安全与稳定具有战略重要性。一次单独的袭击就可能在国家和国际层面产生巨大影响。简易爆炸装置(IED),特别是海上简易爆炸装置,已被证明具有成本效益、易于获取和适应性强的特点,正如近期乌克兰冲突等真实案例所表明的那样,在恐怖主义和非对称战争背景下构成了切实的威胁。多种异构信息来源(来自各种系统和传感器)的使用,以及快速发展的后处理能力(如跟踪、数据关联、聚类或人工智能),正在增加决策者在反简易爆炸装置行动中短时间内必须评估的信息量,因此需要创新技术来为爆炸物处理(EOD)潜水员和自主水下航行器(AUV)操作员提供关于所有可用数据和信息的全面作战图景。本文介绍了海事研究与实验中心(CMRE)的工作,其建模与仿真团队开发了一种基于虚拟现实(VR)的多层、数据驱动、沉浸式环境能力,旨在提升EOD潜水员和AUV操作员的海上态势和空间感知能力,以做出更明智、更快速的决策。该沉浸式环境可在任务规划和执行阶段使用,以协助监控和保护港口及关键水下基础设施。
海上和水下简易爆炸装置(M-IEDs和UW-IEDs)对北约及北约成员国而言并非新威胁。2012年,北约认识到简易爆炸装置构成的威胁,特别是在港口、锚地及其接近水域;并建立了一个利益共同体(CoI),以发展知识和制定可行方案来应对海上环境中的简易爆炸装置。过去和当前的案例已证明简易爆炸装置袭击在多种情境下的有效性,其有可能挑战北约及成员国的韧性和生活方式。虽然过去简易爆炸装置主要用于袭击军事目标,但近期的案例显示了对手以破坏经济为目标袭击关键基础设施的意图和能力。这些事件凸显了海底能源管道和通信电缆的脆弱性。2022年9月对“北溪”管道的破坏行为,暴露了欧洲和北约国家在威慑和防御海底领域混合攻击方面的能力有限。更近的是,即使尚未正式归因,2023年10月芬兰与爱沙尼亚之间的“波罗的海连接器”天然气管道和数据电缆受损事件,也表明了经济和生活所依赖的基础设施面临的暴露风险和脆弱性。在这些事件之后,北约于2023年设立了关键水下基础设施协调小组,致力于识别关键水下基础设施的脆弱性,并加强合作与信息共享,以威慑和防御针对关键水下基础设施的攻击。
本文介绍的工作是在港口和关键水下基础设施防护以应对简易爆炸装置领域进行四年研究开发的成果。此项工作聚焦于研究利用数据驱动的虚拟现实(VR)技术,旨在提升爆炸物处理(EOD)潜水员和AUV操作员在规划和执行监控与保护港口及关键水下基础设施任务时的态势和空间感知能力。这项工作始于2019年,经历了研究和调查阶段,在此期间作者们识别了该领域的差距与不足,以及北约需要制定作战概念(CONOPS)或战术、技术与程序(TTPs),以利用技术创新及使用无人系统和人机协同能力所带来的机遇。基于首次调查的结果,并与法国海军、冰岛海岸警卫队以及反简易爆炸装置卓越中心(C-IED COE)密切合作,项目团队开始开发一个虚拟现实环境,其功能包括虚拟探索水下任务区域以及整合收集到的任务数据,以支持海上和水下反简易爆炸装置行动的规划与协调。
此项工作由北约总部“防御恐怖主义工作计划”(DAT PoW)资助。该计划通过开发防御恐怖主义和非对称威胁的技术解决方案,应对关键的反恐能力缺陷,其成果有助于增强北约及成员国的能力。
本文其余部分结构如下:第2节描述项目执行和原型解决方案开发所采用的方法论;第3节介绍正在开发中的沉浸式环境原型解决方案;第4节介绍用于评估所提方案可用性和作战价值的方法论;第5节通过总结结论和展望未来发展来结束本文。
开发本文提出的原型是基于以下假设:水下反简易爆炸装置潜水行动中的决策过程需要足够水平的态势和空间感知。提升态势和空间感知的挑战,与识别需要何种信息、何时需要以及如何呈现这些信息相关。更具体地说,空间感知需要对执行活动的环境有高度的理解,而态势感知涉及感知要素、理解其含义并能够预测其近期状态的可能性。在此背景下,作者们提议开发一种基于虚拟现实的工具,旨在提供对任务环境的完整作战图景,并对现有数据具有洞察力。采用虚拟现实技术是图2所示结构化流程的最终成果。
图2:所提解决方案概览。