ICML 2026 | 面向视觉语言模型的语义鲁棒性认证：用文本提示刻画可证的语义变化区间

论文题目：Semantic Robustness Certification for Vision-Language Models 论文链接：https://arxiv.org/abs/2606.18839 论文作者：Peiyu Yang、Paul Montague、Feng Liu、Andrew C. Cullen、Amardeep Kaur、Christopher Leckie、Sarah M. Erfani 论文机构：The University of Melbourne、Defence Science and Technology Group 代码地址：https://github.com/ypeiyu/vlm-semantic-cert

视觉语言模型（VLM）已经成为开放词表识别、图文检索、检测、分割和视觉问答等任务的基础组件。但在真实应用中，输入图像经常发生语义层面的变化：物体形状变了、尺寸变了、风格变了、背景变了、视角变了、光照变了。传统鲁棒性认证多关注像素扰动、几何变换或生成模型潜空间变化，很难直接回答一个更贴近日常部署的问题：当图像沿着某个“语义方向”变化时，VLM 的预测在多大范围内保持不变？这篇 ICML 2026 论文提出了一个新的语义鲁棒性认证框架。核心想法非常漂亮：利用 VLM 的开放词表能力，把文本提示作为语义代理，用一对 source/target prompt 在图文共享嵌入空间中定义语义变化方向；再利用 VLM 分类器决策边界的闭式几何结构，精确计算预测类别保持不变的 semantic extent interval。换句话说，模型不仅判断“这个图像是什么”，还可以被认证为“当它朝某个语义属性变化到什么程度之前，预测仍然不会变”。

1. 研究背景：鲁棒性认证为什么需要进入语义层

鲁棒性认证的目标，是给出模型预测在一组允许输入变化下不变的保证。经典工作通常围绕像素级扰动，例如 Lp ball 内的对抗扰动；也有工作处理旋转、平移等几何变换；近年还有方法在生成模型潜空间中做 semantic transformation certification。这些方向各有局限。像素级扰动能描述 worst-case 局部变化，却难以表达“更圆”“更暗”“更像素描风”“换成桌面背景”等语义变化。几何变换有明确闭式参数，但覆盖范围有限。生成模型潜空间可以表达更复杂语义，但通常需要针对每种语义变化准备足够数据并训练或使用相应生成模型，实际部署成本较高。 VLM 提供了一个新机会：图像和文本被映射到同一个单位球嵌入空间，分类通常通过图像 embedding 与类别文本 embedding 的余弦相似度完成。这意味着文本 prompt 本身可以作为语义锚点。作者正是从这里切入，将“语义变化”转化为嵌入空间中由文本 embedding 张成的二维子空间上的连续变换。

图中，输入图像是 gyoza。若目标语义是 triangular，随着语义 extent 增大，模型预测在 0 到 0.77 区间内仍为 Gyoza，超过后会翻转到 Samosa；若目标语义是 on a plate，则整个区间内预测仍保持 Gyoza。这种区间化输出比单点预测更有诊断价值。

2. 相关工作：本文和已有认证方法的差异

论文把相关工作放在三条线索中。第一是 VLM 鲁棒性。已有研究关注分布偏移、对抗攻击、多模态安全、鲁棒优化、蒸馏和解释方法，但多数是在观测到变化后分析或提升模型表现，并没有给出闭式的 prediction-invariant interval。第二是鲁棒性认证。随机平滑、PixelDP 等概率方法给出置信意义下的认证；DeepPoly、CROWN、PRIMA 等抽象解释或 convex relaxation 方法给出 sound 但可能保守的保证；ReluVal、branch-and-bound 等 complete verifier 追求精确性。这些方法大多面向像素扰动或神经网络内部结构，不适合直接描述开放词表语义变化。第三是输入变换建模。DeepG、GeoRobust 等关注闭式几何变换，ApproxLine、GCERT 等利用生成模型潜空间做语义变化认证。本文与它们的关键不同在于：不需要为每个语义变化额外训练生成模型，而是借助 VLM 自身的文本-图像嵌入几何，用 prompt 直接指定语义方向。

3. 问题定义：在 VLM 嵌入空间中认证语义 extent

论文考虑双编码器 VLM。图像 x 经视觉编码器得到单位 embedding z，类别 prompt 经文本编码器得到单位 embedding uc，分类规则是选择与 z 内积最大的类别文本 embedding。由于 embedding 都在单位球上，内积等价于余弦相似度。作者希望定义一个语义变换 γ(φ)，其中 φ 是 semantic extent，表示图像从 source semantic a 向 target semantic a' 变化的强度。认证目标是：给定 extent 范围，判断 VLM 预测在哪些子区间保持不变，在哪些点发生类别翻转。这种表述有两个要点：

语义变化不是直接在像素空间做，而是在 VLM 共享嵌入空间做。
语义方向不是人工手写公式，而是由文本 prompt 的 embedding 指定。

因此，问题从“如何生成所有可能语义变化图像”变成“如何在 VLM 嵌入几何中沿语义方向移动，并精确分析分类边界”。

4. 方法：文本代理、语义平面与闭式决策边界

论文方法分三步：先证明/利用嵌入空间中的结构化语义，再构造语义变换，最后做区间认证。首先，作者使用一对文本 prompt 表示 source semantic 和 target semantic。例如 source 是 “a photo of a gyoza”，target 可以是 “a photo of triangular gyoza”。对应文本 embedding ua 与 ua' 张成一个二维 semantic plane。图像 embedding z 被分解为两部分：位于该平面内的 z∥，以及与该平面正交的 z⊥。语义变换只改变平面内分量的方向，不改变正交分量。这样做的直觉是：ua 与 ua' 所定义的平面负责描述目标语义变化，而 z⊥ 保留与这对语义无关的剩余信息。

其次，作者定义 semantic extent φ。φ 控制 z∥ 在 source-target 语义平面中的角度位置。起点对应 source semantic，终点对应 target semantic。实际应用中，target extent 可以通过两种方式确定：

Text-specified：直接用 target prompt embedding 作为终点语义。
Image-specified：如果有目标语义参考图像，则用参考图像 embedding 投影来确定终点。

最后是 certification。VLM 分类器的决策边界由类别文本 embedding 的 pairwise bisector 决定，也就是 Voronoi decision regions。把语义变换 γ(φ) 代入类别 margin 后，类别切换点可以写成 φ 的闭式方程。收集所有可能类别对的切换点并排序，就可以把 extent 区间切成若干 prediction-invariant intervals，每个区间都有确定预测类别。这就是本文最核心的技术贡献：不是采样很多语义变化图像再观察模型是否翻转，而是在 embedding space 中解析地找出预测保持不变的区间。

5. 实验：语义变化、证书边界与真实数据

论文在 CLIP ViT-B/32 上实验，并覆盖生成数据与真实数据。作者关注三个问题：构造出的 semantic transformation 是否与目标语义一致？认证区间是否能正确对应预测变化？在真实数据集上是否比基线更稳定？首先是定性结果。作者用颜色、形状、材质、风格、纹理、背景、视角、光照等 descriptor 构造目标语义，观察证书区间如何变化。

这些例子展示了方法的可解释性：wallflower 在 red flower、spiral flower、front-view flower 等方向上会出现不同类别边界；beagle 在 pointy dog、gray dog、close-up photo 等语义变化下也有不同的稳定区间。证书不只是一个标量 robustness score，而是沿语义方向展开的预测轨迹。论文还将 semantic descriptors 按属性类型分组，覆盖 color、shape、material、style、texture、background、viewpoint、illumination 等变化。

然后是证书边界评估。作者引入 misalignment budget δ，模拟视觉与文本 embedding 之间可能存在的跨模态不对齐。结果显示，随着 δ 增大，stable coverage 会下降，这是预期现象；但 empirical invariance 和 conditional invariance 仍保持较高，说明证书边界整体偏保守但可靠。

在合成语义变化实验中，作者使用多模态 LLM 生成逐渐变化的图像序列，覆盖 OxfordPets、Flowers102、Food101 等数据集，并比较 ExactLine、文本指定变换 T-Spec 与图像指定变换 I-Spec 的 mean absolute discrepancy。数值越低，表示构造的变换与参考语义变化越一致。

在真实数据上，论文使用 DTD、FGVCAircraft、Caltech101、StanfordCars、Flowers102、OxfordPets、Food101、UCF101 等 8 个图像识别数据集。由于真实图像序列往往不能完全隔离目标语义，作者用 VLM 按 prompt similarity 对图像排序，构造近似的真实语义变化序列。

整体上，本文方法在合成和真实数据上都比 ExactLine 更稳定地对齐语义变化。I-Spec 通常更强，因为它使用目标语义参考图像；T-Spec 更轻量，因为只需要文本 prompt，就能指定开放词表语义。

6. 讨论：证书的用途与边界

本文的证书有几个实际用途。第一，可用于鲁棒性审计。开发者可以指定“颜色变暗”“背景变成街道”“视角变为 close-up”等语义方向，检查 VLM 在多大 extent 内预测稳定。第二，可用于 failure mode 诊断。证书区间短，说明模型对该语义方向敏感；类别翻转点可以揭示模型把哪些属性当作决策依据。第三，可用于 prompt learning 或 prompt engineering。不同 prompt 定义的语义方向可能产生不同稳定区间，证书长度可以作为选择 prompt 的参考标准。第四，可用于下游图像文本检索、检测和分割等任务，因为这些任务往往复用同一个 image-text scoring mechanism。不过，作者也强调了两个限制。一是证书依赖文本代理质量以及图像/文本 embedding 对齐程度。论文通过 bounded misalignment 显式建模这部分不确定性，但如果跨模态 gap 很大，证书会变得保守。二是真实世界语义变化很难完全隔离。真实序列中可能混入非目标因素，例如改变背景时也改变了物体姿态或光照。因此，证书不应被解释为任意现实变换下的安全保证，而是对 prompt 指定语义方向和给定 misalignment 假设下的稳定性刻画。

7. 小结

《Semantic Robustness Certification for Vision-Language Models》提出了一个面向 VLM 的语义级鲁棒性认证框架。它把文本 prompt 作为 semantic proxy，在 VLM 嵌入空间中定义可参数化的语义变换，并利用分类决策边界的闭式几何结构，计算预测保持不变的 semantic extent intervals。这项工作的关键意义在于，它把鲁棒性认证从像素扰动和少数几何变换推进到开放词表语义变化：不需要为每个语义训练生成模型，也不需要额外标注数据，就能用文本描述目标语义并获得可解释的稳定区间。对未来 VLM 部署而言，这类方法可以作为模型审计、语义漂移监控、prompt 选择和失败模式分析的基础工具。它提醒我们：一个视觉语言模型是否可靠，不仅要看静态 benchmark 分数，还要看它在语义连续变化过程中，预测边界究竟在哪里。

成为VIP会员查看完整内容