摘要——语义通信 (SemCom) 作为流量密集型视觉数据传输的一种变革性范式出现，其重点从原始数据转向有意义的内容传输，缓解了不断增长的通信资源压力。然而，实现 SemCom 面临挑战：视觉数据的准确语义量化、多样化任务下的鲁棒语义提取与重建、利用有效知识的收发机协作，以及对不可预测无线环境的适应。在本文中，我们对面向视觉数据传输的语义通信 (SemCom-Vision) 进行了系统综述，结合计算机视觉 (CV) 和通信工程进行了跨学科分析，为机器学习 (ML) 赋能的 SemCom-Vision 设计提供指南。具体而言，本综述首先阐明了 SemCom 的基础和核心概念。然后，我们提出了一种新的分类视角，根据通过语义量化方案解释的通信目标，将现有的 SemCom-Vision 方法分为语义保持通信 (SPC)、语义扩展通信 (SEC) 和语义精炼通信 (SRC)。此外，本综述详述了每种 SemCom-Vision 类别的基于机器学习的编解码模型和训练算法，以及知识结构和利用策略。最后，我们讨论了潜在的应用。

I. 引言

视觉数据已成为通信负载中最主要的来源，占据了全球网络流量的 82.5% 以上 [1]。随着视觉内容在容量和质量上的飞速增长，受限的通信资源（尤其是频谱资源）面临着巨大的压力 [2], [3]。在此背景下，如何在确保视觉数据有效传输的同时缓解资源负担，已成为关键的研究焦点。

A. 背景

语义通信（SemCom）作为一种革命性范式，通过将关注点从传输原始数据根本性地转向传递信息的预期含义，为视觉数据传输提供了一条充满前景的路径 [4]–[7]。在语义通信中，系统仅选择性地提取并传输视觉内容中具有意义的语义，以减轻通信资源负担；随后以语义感知的方式重建视觉内容，从而保持核心质量 [8]–[10]。为了发挥语义通信在视觉数据传输（SemCom-Vision）中的潜力，首要任务是理解视觉数据的本质。通常，视觉数据由一个或多个传感器捕获，包括传统相机、遥感仪器、X射线成像系统、雷达或超声接收器。受传感器类型影响，生成的内容涵盖了从标准 2D 照片到 3D 重建、时序视频或多光谱数据集。这些数据中的像素值可能代表光学强度、深度、反射率，甚至是电磁吸收或声波回声等不可见现象 [11]。由于这些数据共同构成了允许人类和智能实体观察、解释及理解世界的视觉内容，因此在广义上可将其统称为“图像” [12]。在传统通信层面，图像信息完全取决于像素值和像素位置（变化与分布），这在传输中相对直观且具有明确定义的规范 [13]。然而，在语义通信中，重点转向了图像对象及其结构关系、空间排列，甚至更高层面的语义维度，如情感、氛围、意图和上下文含义 [14]。在这种情况下，为了有效传输图像语义，SemCom-Vision 面临着重大挑战： * 挑战 1：语义量化。 利用 SemCom-Vision 的关键在于识别和量化图像中的语义 [15]。然而，即使是分辨率适中的图像也包含分布在不同尺度和区域的丰富时空及上下文信息。此外，针对不同任务，构成图像“含义”的基础逻辑各不相同 [16]。例如，医学 X 射线图像可能在未经训练的观察者无法察觉的微小强度变化中包含关键诊断信息，而监控图像则可能优先考虑运动模式和对象识别。即使是同一张图像，根据语义通信任务和目标的不同，也可能承载不同的语义重要性 [17]。在统一且可衡量的框架中量化这些多维度语义以指导语义处理，仍是一个开放且具有挑战性的研究课题 [18]。 * 挑战 2：语义提取与重建。 视觉数据的语义提取涉及适应不同任务和目标的复杂感知与推理能力 [19]。与对整张图像应用统一处理的传统压缩技术不同，语义提取需要开发鲁棒的算法，在提取有意义语义特征的同时舍弃无关信息 [20]。此外，根据不同任务需求，甚至在语义信息不足或受损的情况下，从语义中准确恢复图像细节并进行重建，在技术上极其复杂 [21]。 * 挑战 3：基于知识利用的收发机协作。 实现收发机之间的协同语义理解本质上是困难的，因为传输的视觉语义通常是隐性的，且高度依赖于具体的任务和目标 [22], [23]。若缺乏结构化的知识表示、可靠的推理和高效的推理机制来建立对象、属性与关系之间的准确关联，收发机可能难以满足不同 SemCom-Vision 应用的多样化服务需求。 * 挑战 4：对通信条件与需求的鲁棒性。 考虑到变化的信道条件和动态的资源可用性，无线环境往往具有不可预测性，这为确定语义特征提取、传输和重建的方式带来了额外挑战 [24]。此外，在波动的信道条件下权衡时延与重建质量等相互竞争的服务需求，也需要复杂的折衷策略 [25]。

在此背景下，通信工程中的传统编码策略和通信协议在处理复杂的计算密集型语义处理、收发机协作以及服务与资源之间的折衷时面临局限 [26]。为了克服这些挑战，开发有效的 SemCom-Vision 系统需要跨学科协作，将计算机视觉（CV）的进步与通信工程相结合，显示出在确保动态资源下鲁棒性的同时满足多样化服务需求的潜力 [27]。

B. 动力

CV 领域机器学习（ML）的突破性进展与对高效视觉数据传输的迫切需求，为 SemCom-Vision 的发展创造了绝佳机遇 [28]。最近的 ML 进展展示了在理解和解释视觉内容方面前所未有的能力，模型在目标识别、场景理解和内容生成等任务中已达到甚至超越了人类水平 [29]。这些模型从根本上改变了视觉数据语义的表示和处理方式，为 SemCom-Vision 设计提供了底层技术支持 [30]。与传统通信中广泛使用的确定性规则或统计模型不同，ML 与 SemCom-Vision 具有天然的协同效应。ML 模型可以通过大规模训练学习原始视觉数据与其语义之间的复杂映射，从而实现更鲁棒、更通用的语义量化 [31]。特别是在强大的神经网络（NN）支持下，ML 已被证明在捕获跨多个尺度和抽象层次的分层语义特征方面异常有效 [32]。此外，基于 ML 的**编解码器架构（Encoder-Decoder Architecture）**为 SemCom-Vision 提供了天然的骨干支撑。通过构建将视觉信息压缩为紧凑语义的语义编码器，以及从这些语义中重建视觉内容的解码器，可以实现传输“含义”而非“原始数据”的根本目标 [33]。这种学习到的语义可以捕获核心特征并舍弃感知无关的比特，在不损害特定任务重建质量的前提下大幅节省带宽 [34]。此外，通过分析和理解 ML 模型，可以针对不同任务开发自适应的知识结构以增强语义理解，进而支持语义提取、传输与重建 [35]。借助持续学习（Continual Learning）等 ML 技术，预训练知识可以适应新的用户偏好和特定任务需求 [36]，这种自适应性对于处理多样且动态的服务需求至关重要。ML 与 SemCom-Vision 的融合还为智能资源分配和自适应传输策略开启了新可能性 [37]。ML 模型可以学习预测信道状况和任务上下文，并在服务需求之间进行权衡，从而实现对提取、传输和重建参数的动态调整 [38]。基于这些技术基础和紧迫挑战，开发机器学习赋能的 SemCom-Vision 系统不仅是对现有方法的增量改进，更是向更智能、更高效的视觉通信迈出的范式转变。具体而言，SemCom-Vision 涵盖了语义量化、收发机架构和知识结构等多个关键领域的探索。尽管研究人员已提出多种方案，但尚未建立公认的、基于机器学习视角的指导准则。这一空白促使我们对 SemCom-Vision 的当前进展、新兴趋势和未来研究方向进行全面综述。

C. 相关综述

已有若干显著的综述对 SemCom 进行了全面回顾，并纳入了视觉数据传输的视角，如表 I 所示。文献 [4] 从无线网络角度深入调研了 SemCom 技术的演进。文献 [5] 全面回顾了 SemCom 的进展及其在视觉传输中的应用，将其分类为语义导向、目标导向和语义感知通信。文献 [6] 提供了 SemCom 基础结构和工作流程的详尽概述。文献 [7] 探讨了其核心优势，强调了从数据驱动向知识驱动通信的转变。文献 [8] 则从智简（Intellicise）无线网络的角度桥接了传统模型与 SemCom 之间的概念鸿沟。文献 [9] 和 [10] 提供了关于语义信息和语义熵的详细数学公式。相比之下，本综述涵盖了从收发机设计、语义量化到编解码器构建、模型训练以及知识结构利用的所有维度。

D. 贡献与组织结构

本综述对面向视觉传输的语义通信进行了系统性回顾，主要贡献如下： * 阐述了 SemCom-Vision 中机器学习的基础知识，并介绍了收发机设计的整体框架。 * 提出了一种新颖的分类方法，基于语义量化方案下的通信目标，将研究划分为语义保持、语义扩展和语义精炼通信，帮助研究者识别研究空白。 * 对 SemCom-Vision 专用的编解码器构建进行了深入的技术分析，涵盖不同架构及训练算法。 * 审视了对 SemCom-Vision 系统至关重要的知识结构与利用，包括知识探索阶段和知识图谱分类。 * 探索了包括数字孪生、元宇宙和无线感知在内的跨领域新兴应用。

本综述的其余部分组织如下（如图 1 所示）：第二节介绍 ML 基础概念和基本收发机框架；第三节介绍语义量化和分类方法；第四节详细分析编解码器构建策略；第五节讨论知识结构；第六节探索实际应用；第七节总结全文。

成为VIP会员查看完整内容