音视频智能(Audio-Visual Intelligence, AVI)已成为人工智能的核心前沿领域,通过桥接听觉与视觉模态,使机器能够在多模态真实世界中感知、生成和交互。在大基础模型时代,对音频与视觉进行联合建模——不仅用于理解,更用于可控生成和跨动态、时间锚定信号的推理——正变得日益关键。Meta MovieGen、Google Veo-3 等最新成果凸显了工业界与学术界对从海量多模态数据中学习的统一音视频架构的日益关注。然而,尽管进展迅速,已有文献仍呈碎片化状态,涵盖多样化的任务、不一致的分类法与异质的评估实践,阻碍了系统比较与知识整合。本综述首次从大基础模型的视角对音频-视觉智能进行全面回顾。我们建立了一个统一的分类法,涵盖音频-视觉智能任务的广阔图景:从理解(例如语音识别、声音定位)到生成(例如音频驱动视频合成、视频到音频),再到交互(例如对话、具身化或智能体接口)。我们综合了方法论基础,包括模态标记化、跨模态融合、自回归与扩散生成、大规模预训练、指令对齐和偏好优化。此外,我们整理了代表性的数据集、基准和评估指标,提供了跨任务家族的结构化比较,并识别了同步、空间推理、可控性和安全性等方面的开放挑战。通过将这一快速扩张的领域整合到一个连贯的框架中,本综述旨在为未来大规模音视频智能研究提供基础性参考。
大基础模型通过扩展数据、算力和模型容量,解锁了广泛的通用性和涌现能力,彻底改变了人工智能[191, 239, 651]。人类的感知本质上是多模态的,而音频与视觉构成了理解、预测和控制真实世界环境中最普遍且最具互补性的感知模态[150, 268, 278, 639]。在社会各层面,这种音视频配对支撑着辅助技术、教育、机器人、娱乐和创意工具,在这些场景中,感知与生成越来越多地共存而非孤立出现。在大模型时代,进展因此依赖于统一音视频智能,以支持在时空约束下的稳健理解、可控生成和交互推理。Meta MovieGen[439]与Google Veo-3[120]等工业系统代表了向端到端音频-视觉建模与协同合成这一战略转变的典型示例,标志着技术成熟度与应用需求的同步增长。在此背景下,我们将论文贡献定位为整合大模型规模下音视频智能的概念、方法和趋势,为研究与部署奠定连贯的基础。
如图1所示,音视频智能跨越了一个广阔且快速演进的任务谱系,反映了自然环境中声音与视觉如何协同存在。在感知方面,代表性问题包括音视频语音识别[393]、唇读[498]、主动说话人检测[466]、声源定位与分离[536]、事件理解[413]、跨模态检索[204]和音视频问答[655],这些都依赖于模态间的同步与具身化。在生成方面,研究探索音频驱动的说话头[568]、视频条件语音或拟音[101]、与视觉节奏对齐的音乐生成[217]、配音与对齐[374]、跨模态编辑与风格化[156],以及具有长程连贯性的可控多模态叙事[719]。交互场景则进一步引入流式推理[630]、工具使用[667]和具身化[268],系统必须在尊重延迟和用户意图的同时,对时间纠缠的信号进行推理。总体而言,这些任务家族促使了对输入、目标和评估的统一形式化,以便在不同设置间公平比较方法。
在方法论上,音视频智能构建于模态特定的音频与视觉编码器或标记化器、跨模态融合与对齐,以及强大的生成解码器之上[75, 639]。自回归Transformer[49]驱动语音、音乐和视频令牌的序列建模,实现了大规模条件下的解码和指令跟随。扩散模型[215, 362]在高质量合成与灵活编辑方面表现突出,并已通过交叉注意力和引导机制逐步适应多模态控制。自监督目标(如对比对齐和掩码/去噪建模)仍然是表示学习的核心,而指令微调与偏好优化则为交互式音视频应用定制行为[177, 639]。缩放定律、数据混合与策展策略——涵盖语音语料库、音乐数据集、视频-音频对和合成管线——共同决定了能力与鲁棒性,也引发了关于覆盖度、偏见和许可的新问题[679]。
尽管取得了令人印象深刻的进展,已有文献在研究子社区间仍呈碎片化状态,存在重叠的定义、不一致的术语和分歧的分类法,阻碍了累积性理解。评估实践在数据集、指标和协议方面差异巨大,尤其是在开放式生成、对齐质量、时间一致性以及以人为中心的判断方面,这加剧了可复现性和基准测试的复杂性[55, 655]。安全与治理问题(如音视频中的隐私、语音与音乐的知情同意、水印与溯源,以及大模型训练的能耗足迹[87, 120])日益重要,但尚未得到均衡解决。这些差距凸显了进行一项全面的、分类法驱动的综述的必要性,以统一该领域,并为音视频智能研究和实践建立可操作的、可比较的标准。 论文配图说明:Figure 1(第4页)展示了从2016年到2026年音视频智能的进化树图,四列分别追踪了“理解世界(音视频感知)”、“创造世界(音视频生成)”、“与世界交互(统一感知与生成)”以及“今日汇聚的音视频系统”四个方面的代表性方法。Figure 2(第7页)是音视频智能的分类法。Figure 3(第8页)是音视频数据表示的概述。Figure 4(第10页)是音视频智能任务的概览图。 图 1 2016 年至 2026 年音视频智能的发展演化树。四列分别追踪“理解世界”(音视频感知)、“创造世界”(音视频生成)、“与世界交互”(统一感知与生成)以及当前收敛形成的音视频智能系统中的代表性方法。来源:原论文 PDF 第 4 页。
如图2分类法所示,在正式定义音频和视觉的数据模态(第2节)后,我们首先呈现音视频智能的原则性分类法(第3节),阐明任务家族的范围、假设、监督信号和关系,为深入具体内容提供全局地图。然后综合音视频智能的基础技术(第4节),涵盖标记化与表示、跨模态融合与对齐、自回归与扩散生成、训练目标、数据缩放与策展,以及交互式使用的指令对齐。在此基础上,我们沿着三大支柱组织文献:感知(第5节)、生成(第6节)和交互(第7节),对每个支柱回顾代表性方法、总结数据集和指标,并提供比较分析和提炼的要点。之后,我们介绍音视频智能的代表性应用(第8节),如数字人类与沉浸式体验,并突出管道中的相关方法。最后,讨论开放挑战和未来方向(第9节),包括同步与时间推理、空间音频与3D/4D基础、可控性与编辑、流式效率与延迟、开放式音视频生成的评估,以及大规模安全性、水印和数据治理。
本综述的其余部分假定读者对“音频”和“视觉”的数字形式有清晰的理解:物理信号如何被采样,如何被转换为神经网络的张量或令牌,以及哪些单模态表示后续被输入跨模态和生成系统。我们因此首先独立定义每种模态,然后再引入融合、对齐或特定任务处理。图3总结了主要的数据形状和表示家族;以下子节分别精确阐述声音和图像/视频的这些概念,包括连续嵌入和离散标记化。 图 2 音视频智能的分类体系。来源:原论文 PDF 第 7 页。
图 3 音视频数据表示方法概览。来源:原论文 PDF 第 8 页。
音频模态源于物理振动以声波形式传播,可分为语音、音乐(包括乐器和人声)和一般声音事件(涵盖环境、城市、家庭声音或声效)。对于数字处理,这些模拟信号通过麦克风传感器振动捕获,并进一步采样生成1D时间序列数字信号,即波形。通常格式为单声道(1通道)或立体声(2通道),也存在多通道空间音频格式。 如图3所示,音频信号主要通过两种形式建模:原始波形和时频表示。单声道波形表示为1D时间序列(a \in \mathbb{R}^L),以固定速率采样;多声道音频可表示为(A \in \mathbb{R}^{C \times L})。或者,可通过短时傅里叶变换(STFT)将波形转换为频谱图,其幅度通常映射到Mel尺度并对数压缩,得到log-Mel频谱图(S \in \mathbb{R}^{T \times F})。这两种表示主导了多模态基础系统中音频编码器的输入[384]:
视觉数据通常指作为像素强度捕获的图像和视频。图像可视为3D场景在2D图像平面上的投影(如针孔相机模型),视频由一系列图像帧组成。形式上,3通道RGB彩色图像表示为矩阵(I \in \mathbb{R}^{H \times W \times 3}),其中H、W分别为高度和宽度。视频表示为有序帧序列(V = {I_1, I_2, \ldots, I_T} \in \mathbb{R}^{T \times H \times W \times 3}),通常以固定帧率(如30fps)播放,并在计算机视觉模型中作为4D张量存储和处理。 视觉数据包含多种形式,包括自然图像[471]、虚拟图像[253]、绘画[181]等。在音视频应用中,人类中心内容是一个关键子集,包括人体[253]、说话头[85]和唇同步视频[247]。除了2D图像,许多工作探索3D视觉表示,如深度图[407]、点云[195]、表面网格[262]、NeRF[161]和3D高斯溅射[147]。这些格式支持更丰富的几何和空间交互建模。 原始图像或视频数据是高维的,因此采用多种表示方法提取紧凑、信息丰富的特征:
本节系统概述音视频智能中涉及的任务,涵盖三个关键维度:理解、生成和交互。如图4所示,这些维度勾勒出未来AGI发展的路线图。每个任务的具体细节将在第5、6和7节中讨论。 图 4 音视频智能任务概览。来源:原论文 PDF 第 10 页。
感知是音视频智能的基础,使模型能够从原始听觉和视觉信号中感知和解释世界。本节沿三个逐渐递增的抽象层次呈现音视频感知任务的分类法:像素级感知、内容理解和逻辑推理。这些任务类别共同概述了构建通用音视频智能所需的感知和认知能力。
音视频生成旨在通过建模视觉和听觉信号的联合分布,合成连贯且真实的多模态内容。与解释输入的理解任务不同,生成任务需要创建时间对齐、语义一致且感知真实的输出。本节将生成任务分为三种范式:条件生成、跨模态生成和联合音视频生成,分别代表构建世界创建多模态系统的渐进深度融合。
音视频统一感知与生成将多模态理解与生成决策结合在交互式设置中。与孤立的感知或离线生成不同,这些系统必须解释正在进行的音视频输入,基于上下文或意图进行推理,并产生及时的多模态输出或行动。我们将此类系统分为两种范式:交互式音视频对话(数字世界)和交互式音视频具身化(物理世界)。
本节介绍大基础模型时代发展的基础技术,为走向通用音视频智能提供关键技术路径,包括表示中心、生成中心和以大语言模型(LLM)为中心的方法。
如图5所示,表示中心方法旨在将原始输入数据(包括图像像素、视频帧和音频波形)转换为连续嵌入或离散令牌,可被神经网络高效处理并支持相关AI应用。
音视频表示学习利用未标记视频中视觉和听觉信号的自然同步性,学习跨模态语义而无需人工标注。现有方法主要依靠自监督目标、对比对齐、相关建模或任务导向的编码器设计学习共享的音视频嵌入。
在音视频智能中,变分自编码(VAE)为学习紧凑表示和实现跨模态重建提供了统一框架[271, 461]。如图5所示,VAE采用编码器-解码器架构,将音频或视觉输入映射到概率潜在空间,并通过从该空间采样的重建原始信号[461]。通过在潜在变量上施加结构化先验,VAE既支持表示学习也支持生成重建,使其成为音视频建模的基础技术[445]。 特别是,近期多模态VAE探索从同步音频和视觉输入学习联合潜在空间[445, 472]。通过将潜在变量结构化为共享和模态特定组件,这些模型在解耦模态不变语义和模态特定信息的同时支持跨模态重建[445, 472]。这种结构化潜在设计使VAE成为音视频设置中跨模态重建和生成的有用框架[472]。
音视频离散标记化将连续声学和视觉信号转换为紧凑符号单元,为令牌基多模态模型提供常见离散令牌接口[541, 698]。通过将向量量化应用于学到的潜在空间,结构化信号被转换为适合自回归建模的令牌序列。 在音频方面,基于向量量化的编解码器如SoundStream[698]、EnCodec[121]和DAC[287]逐步改进重建质量,而WavTokenizer[245]降低令牌率。来自自监督模型(如HuBERT[219])的语义令牌捕获语言内容但省略细粒度声学细节,从而激发了包括X-Codec[672]、BiCodec[576]和Mimi[122]在内的混合设计。在视觉方面,离散潜在建模起源于VQ-VAE[541]和VQGAN[141],随后在码本可扩展性和效率方面取得改进,如MAGVIT-2[690]、VQGAN-LC[766]、SimVQ[768]和TokenFlow[446],并扩展到视频令牌化包括Divot[167]。 近期努力追求统一多模态标记化,其中共享或交错词汇支持跨模态推理和生成。SpeechGPT[708]、AnyGPT[704]和Moshi[122]是令牌级多模态建模的典型代表,突显了高效且语义良好的标记化器设计对音视频基础模型的重要性。
生成中心方法支持单模态(T2I、T2V、T2A)和跨模态(A2V、V2A、T2AV)音视频任务的条件合成与编辑,语义连贯性和时间同步是关键要求。图6展示了几个主导生成范式。
生成对抗网络(GAN)通过生成器和判别器之间的对抗训练学习生成模型[182]。改进如DCGAN[449]、WGAN[24]和StyleGAN[261]在扩散模型[215, 464]兴起前显著推动了图像合成。GAN也曾被探索用于跨模态音视频生成[430],包括文本条件合成[458, 535]、神经音频生成[276, 286]和音频驱动视觉动画[290, 427, 442, 757]。 尽管有这些早期演示[34],扩散基生成器的进展使这些新范式在近期音视频生成研究中日益常见[44, 464, 654]。
扩散模型通过学习从噪声到数据分布的去噪过程来生成数据[215, 497]。相关连续时间生成器如流匹配和修正流学习将噪声传输到数据的速度场[337, 362]。在架构上,扩散及相关连续时间模型已从卷积UNet[465]演变为扩散Transformer(DiT)[436],后者在数据和模型规模上更具可扩展性[142]。 基于这些基础,扩散及相关连续时间生成器推动了音视频和多模态生成的快速进展[654]。在图像和视频生成中,潜在扩散和修正流模型支持了最近的文本到图像[53, 54, 607]和文本到视频[166, 278, 328, 548]系统,实现了更高分辨率、更长时长和改进的时间一致性。对于音频生成,潜在扩散及相关连续时间模型已应用于语音[15]和声效[344]合成,通常在学到的潜在空间中操作。最近的音视频系统也探索了跨文本、音频和视觉输入的对齐潜在条件,用于音频条件视频合成[165]、视觉基础声音生成[101]和联合音视频生成[369]等任务。 扩散及相关连续时间模型已成为现代音视频生成的主导范式,相对早期的GAN方法提供了改进的稳定性和可扩展性[362, 654, 680]。
自回归(AR)生成器将数据分布建模为逐令牌预测序列,通过顺序解码实现生成。借助图像、音频和视频的离散标记化,多模态生成可表述为令牌流上的语言建模[121, 539–541, 698]。该范式启用令牌基生成器,包括用于图像/视频生成的VAR[524]、LlamaGen[507]、Emu3[575]/Emu3.5[117]和NOVA[124],以及用于音频和音乐生成的编解码器语言模型,包括AudioLM[46]、MusicLM[6]、MusicGen[112]、VALL-E 2[84]和CosyVoice 2[139]。 AR Transformer共享大语言模型[49]的下一个令牌预测接口,并可通过交错模态特定令牌流支持多模态提示,如系统VideoPoet[275]和V-AURA[545]所示,用于同步音视频生成。然而,顺序解码导致高采样延迟和长序列的误差累积,从而激发了更高效的替代方案,如掩码令牌生成(第4.2.4节)和扩散方法(第4.2.2节)。
掩码自回归(MAR)生成,又称掩码-预测解码,用迭代掩码令牌预测取代严格顺序解码,从而在令牌子集上实现并行生成[171]。代表性系统包括用于图像的MaskGIT[59]和Muse[60],用于视频令牌的MAGVIT[377, 689, 690]、MaskViT[197]和Phenaki[546],以及用于并行音频编解码器生成的SoundStorm[47]。 与严格自回归解码相比,MAR可在离散视觉或音频令牌上实现更快的并行细化[314],但其性能通常取决于标记化质量和解码计划[314, 597]。
随着生成式大语言模型(LLM)[2, 191]在语言理解和生成方面取得强劲表现,以LLM为中心的框架已成为音视频智能的一个突出方向,其中音频和视觉输入被转换为LLM可处理的表示,以激发多模态智能。
音视频系统中的感知始于从原始信号中可读取的内容,进而探讨信号在上下文中的含义,最后分析事件之间如何及时、为何相关;图8示意了这种递进。本节沿三个层次组织:首先从每个模态及联合设置中的像素/样本级结构开始,然后处理语义内容理解,最后涵盖超越单步识别的推理。我们区分单模态预览材料(简要定义和指针)与音频-视觉问题(跨模态对齐、数据和基准得到更深入发展),以适应第3节概述的调查范围。
像素级感知关注声音中的时频结构、图像和视频中的空间布局,以及跨模态的精确空间-时间锚定。
音频感知包括自动语音识别(ASR)、音乐信息检索、声音事件检测与分类等任务。这些任务将原始波形或频谱图转换为高层语义标签。代表性数据集包括AudioSet[168]、VGGSound[70]等;评估指标包括词错误率(WER)、分类准确率等。
视觉感知包括目标检测、语义分割、实例分割、人体姿态估计、3D场景理解等。这些任务从像素数组中提取空间结构和语义内容。代表性方法包括Faster R-CNN[771]、Mask R-CNN[375]、ViT[133]等。数据集包括ImageNet[471]、COCO[253]等。
音视频事件定位旨在从视频流中识别出由特定声音引发的视觉事件,并将音频事件与视觉区域或时间段精确关联。代表性方法包括AVTS[280]、CRAB[136]等。任务要求在时间或空间上对齐音频和视觉信号。
音视频分割任务在视觉帧中分割出发声对象或区域的像素级掩码。典型方法包括Sound of Pixels[733]、AVSegFormer[164]、SAM2-LOVE[589]和OmniAVS[681]。数据集如Greatest Hits[427]包含声源掩码标注。
音视频同步任务判断音频和视觉流是否在时间上匹配,或估计其对齐偏移量。常用方法基于SyncNet[108]架构,扩展到自监督学习(CAV-MAE Sync[23])。数据集包括AVSync15[715]等。
内容理解阶段从音频-视觉输入中提取高层语义信息,包括对象、事件及其时间与因果关系。典型任务包括音视频问答(AVQA),模型需要联合理解音频和视频内容来回答问题。内容理解比像素级感知操作在更高的抽象层级上,反映了模型理解多模态场景中发生了什么的能力。
音频理解扩展了音频感知,包括音频场景分类、情绪识别、说话人识别等。代表性系统如Qwen-Audio[106]、Qwen2-Audio[107]等,将音频编码为LLM可处理的表示,支持复杂语义理解。
视觉理解包括图像/视频描述、视觉关系检测、场景图生成等。VLM系统(如LLaVA[346]、InternVL[96])通过视觉编码器+LLM架构实现。
音视频问答(AVQA)要求模型基于同时提供的音频和视觉内容回答问题。代表性数据集包括AVQA[655]、Music-AVQA[299]等。模型需对齐多模态线索并推理语义交互。
跨模态检索旨在使用一种模态的查询检索另一种模态的内容,如用音频查询检索视频片段,或反之。代表性方法包括ImageBind[177]、LanguageBind[761]、DenseAV[204]等,通过对比学习将两种模态对齐到共享嵌入空间。
逻辑推理拓展了音视频理解,要求模型进行超越直接观察的推理,融入物理常识、因果关系或数学推理。模型需要从音视频证据中推断潜在原因或预测结果,例如物理音视频常识推理[691]。该任务评估模型能否将感知与结构化推理相结合,以解释或预测多模态世界中的事件。
音频推理要求模型从音频输入中进行逻辑推断,如推断事件因果关系、空间方位或时间顺序。代表模型包括SALMONN[514]等,具备音频逻辑推理能力。
视觉推理包括视觉常识推理、视觉问答中的关系推理、物理场景推理等。VLM系统(如InternVL系列、Qwen-VL系列)具备视觉推理能力。
音视频推理联合两种模态进行结构化推理,如推理“为什么狗叫是因为汽车经过”。代表性基准包括OmniBench[325]、OmniVideoBench[298]、AIR-Bench[657]等。模型需整合音视频线索,输出因果解释或预测。
音视频生成旨在通过建模视觉和听觉信号的联合分布,合成连贯且真实的多模态内容。本节组织为条件生成、跨模态生成和联合生成,对应第3.2节的分类。
条件音频生成基于文本、标签或音频上下文创建声音。代表性方法包括AudioGen[281]、AudioLDM[343]、AudioLDM 2[344]、TANGO[402]、MusicGen[112]等。系统通常采用扩散或自回归架构,从文本描述生成语音、音乐或声效。评估指标包括FAD[264]、CLAP Score等。
条件视觉生成基于文本、图像或视频线索合成图像或视频。代表性文本到图像系统包括Qwen-Image[607]、HunyuanImage[54];文本到视频系统包括CogVideo[218]、Make-A-Video[495]、Movie Gen[439]、HunyuanVideo[278]、Wan[548]、Seedance[166]等。评估指标包括FID[213]、FVD[538]等。
视频到音频生成从视觉输入生成配乐、语音或空间音频,要求强时间对齐与因果基础。代表性方法包括Diff-Foley[374]、FoleyCrafter[729]、MMAudio[101]、ThinkSound[348]、UniAVGen[711]、Kling-Foley[554]、HunyuanVideo-Foley[479]等。数据集如FoleyBench[131]提供标注。评估包括同步质量(SyncNet-style)和音频质量(FAD)。
音频到视频生成从音频线索合成视觉内容,如说话头合成(Wav2Lip[442]、AD-NeRF[194]、SadTalker[723]、Wan2sv[165])和音频驱动化身(X-Streamer[630])。要求音频与唇形、面部表情的精确同步。
音频同步图像动画将静态图像与音频对齐生成动画,如基于NeRF或扩散模型的头部动画(EMO[5]、VASA-1[165]、Hallo3[165])。
音频驱动3D视觉生成从音频输入合成3D场景或人物,如语音驱动3D面部动画(VOCASET[113])。
文本到音视频生成从共享文本提示同步生成音频和视频。代表性方法包括MM-Diffusion[469]、Seeing and Hearing[634]、AV-DiT[556]、MM-LDM[506]、JavisDiT[355]、UniVerse-1[552]、Ovi[369]、Jova[233]、MOVA[684]、Apollo[555]等。评估需同步质量和整体感知质量。基准如JavisBench[355]、Verse-Bench[552]、Harmony-Bench[220]。
从输入图像+文本提示联合生成音视频,如UniAVGen[711]等。
联合编辑既有的音视频内容,保持多模态一致性。代表工作Object-AVEdit[156]。基准如AvED-Bench[335]。
音视频统一感知与生成结合多模态理解与生成决策于交互式场景。本节涵盖交互式对话和具身化智能体。
音频驱动对话系统以多模态上下文生成语音响应,如SpeechGPT[708]、Qwen-Audio[106]、SALMONN[514]、Mini-Omni[631]、LLaMA-Omni[145]等。支持端到端语音理解和生成。
在对话中同时理解和生成视觉内容,如Show-o[627]、Janus-Pro[90]、Emu3.5[117]、Ming-UniVision[237]等。这些模型统一了文本、图像令牌的架构,实现交互式编辑和生成。
支持灵活的输入输出模态组合的统一系统,如GPT-4o[239]、Qwen2.5-Omni[638]、Qwen3-Omni[639]、Ming-Omni[8]、InteractiveOmni[530]等。这些模型在单一主干中联合处理音频、视频和文本,实现低延迟交互。
音视频导航利用音频和视觉线索引导移动。代表性系统包括SoundSpaces[64]、SoundSpaces 2.0[67];模型如Audio-VLNet[468]、Audio-VLA[602]等。智能体需学习从声音中推理空间信息。
结合音频和视觉进行3D场景理解与重建,如AVLMaps[224]、Sound of Simulation[566]。
智能体基于音视频感知执行物理操作,如OpenVLA[268]、π0[42]、GR00T N1[41]、音频-VLA[602]等。这类模型统一感知、推理和行动。
音视频生成技术广泛应用于电影制作、游戏开发、虚拟IP、配音、音乐视频等。系统如Movie Gen[439]、Veo-3[120]使创作者能从文本直接生成音视频内容。
数字人类(如虚拟主播、客服化身)利用音频驱动说话头、面部表情同步进行实时互动。代表性系统包括Wav2Lip[442]、AD-NeRF[194]、VASA-1[165]等。
辅助技术(如视频字幕、跌倒检测)、会议转录、教育(自动生成多媒体教学材料)等。代表性感知模型如Whisper[451]、Qwen-Audio[106]可实现跨场景服务。
VR/AR中,空间音频与视觉的联合生成和建模对于创建真实沉浸感至关重要。系统如SoundSpaces[64]和OmniXR[79]探索了该方向。
机器人通过音视频感知进行导航、操作和人机交互。代表性VLA系统如RT-2[770]、OpenVLA[268]、Gemini Robotics[519]。
监控、异常事件检测(如枪声检测结合视频)、声源定位等安防应用。模型如AudioSet[168]训练的事件检测器、CRAB[136]等。
当前系统主要依赖于成对的同步音视频剪辑。未来需要在动态、未配对流中建立因果事件-源基础,理解“什么声音导致了什么视觉事件”以及“为何如此”。需要因果推理和反事实能力。
现有模型主要基于固定镜头或剪辑训练。未来需要能够预测智能体采取特定行动后音频和视觉世界如何变化的世界模型,对机器人和交互式AI至关重要。
缺乏长期跨模态上下文记忆能力。需要开发存储和检索过去音视频事件记忆的机制,以实现长时对话和具身交互中的连贯性。
实现真正控制和推理需要模型能进行因果干预:在虚拟世界中修改一个模态(如移除声音)并预测对另一个模态(视觉)的影响。需要世界理解中的因果关系建模。
需要建立强大的验证器和奖励系统评估生成结果的质量、对齐度、安全性和真实性,尤其在开放式音视频生成任务中挑战巨大。
涉及安全性、水印、溯源、治理、隐私保护和公平性。随着音视频生成能力增强,确保负责任开发和使用至关重要。需要数据许可、内容认证、偏见控制等机制。
本综述首次全面审视了在大基础模型范式下的音视频智能。我们建立了一个统一的分类法,涵盖从理解、生成到交互的任务领域,综合了方法论基础(包括表示、生成与LLM为中心的技术),整理了代表性的数据集和基准,并指出了在时间同步、空间音频推理、可控性、安全性与治理等方面的开放挑战。通过将这一快速扩张的领域整合到一个连贯的理论框架中,本综述旨在为未来大规模音视频智能研究提供一份可靠的参考。
英文题目:Audio-Visual Intelligence in Large Foundation Models: A Comprehensive Survey 作者:You Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei arXiv ID:2605.04045 类别:cs.CV Comments/项目信息:56 pages, 16 figures, 24 tables. GitHub repository: https://github.com/JavisVerse/Awesome-AVI 原文链接:http://arxiv.org/abs/2605.04045v1