Learning systems that preserve privacy often inject noise into hierarchical visual representations; a central challenge is to \emph{model} how such perturbations align with a declared privacy budget in a way that is interpretable and applicable across vision backbones and vision--language models (VLMs). We propose \emph{Bodhi VLM}, a \emph{privacy-alignment modeling} framework for \emph{hierarchical neural representations}: it (1) links sensitive concepts to layer-wise grouping via NCP and MDAV-based clustering; (2) locates sensitive feature regions using bottom-up (BUA) and top-down (TDA) strategies over multi-scale representations (e.g., feature pyramids or vision-encoder layers); and (3) uses an Expectation-Maximization Privacy Assessment (EMPA) module to produce an interpretable \emph{budget-alignment signal} by comparing the fitted sensitive-feature distribution to an evaluator-specified reference (e.g., Laplace or Gaussian with scale $c/ε$). The output is reference-relative and is \emph{not} a formal differential-privacy estimator. We formalize BUA/TDA over hierarchical feature structures and validate the framework on object detectors (YOLO, PPDPTS, DETR) and on the \emph{visual encoders} of VLMs (CLIP, LLaVA, BLIP). BUA and TDA yield comparable deviation trends; EMPA provides a stable alignment signal under the reported setups. We compare with generic discrepancy baselines (Chi-square, K-L, MMD) and with task-relevant baselines (MomentReg, NoiseMLE, Wass-1). Results are reported as mean$\pm$std over multiple seeds with confidence intervals in the supplementary materials. This work contributes a learnable, interpretable modeling perspective for privacy-aligned hierarchical representations rather than a post hoc audit only. Source code: \href{https://github.com/mabo1215/bodhi-vlm.git}{Bodhi-VLM GitHub repository}


翻译:在保护隐私的学习系统中,噪声常被注入到分层视觉表征中;一个核心挑战是如何以可解释且适用于各类视觉骨干网络和视觉-语言模型(VLM)的方式,**建模**此类扰动与声明的隐私预算之间的**对齐关系**。我们提出**Bodhi VLM**,一个面向**分层神经表征**的**隐私对齐建模**框架:它(1)通过基于NCP和MDAV的聚类方法,将敏感概念与逐层分组相关联;(2)利用自底向上(BUA)和自顶向下(TDA)策略在多尺度表征(例如特征金字塔或视觉编码器层)上定位敏感特征区域;(3)采用期望最大化隐私评估(EMPA)模块,通过将拟合的敏感特征分布与评估者指定的参考分布(例如尺度为 $c/ε$ 的拉普拉斯分布或高斯分布)进行比较,生成可解释的**预算对齐信号**。该输出是相对于参考的,并**非**一个正式的差分隐私估计量。我们形式化了在分层特征结构上的BUA/TDA方法,并在目标检测器(YOLO、PPDPTS、DETR)和VLM的**视觉编码器**(CLIP、LLaVA、BLIP)上验证了该框架。BUA和TDA产生了可比较的偏差趋势;EMPA在所述设置下提供了稳定的对齐信号。我们与通用差异基线(卡方检验、K-L散度、MMD)以及任务相关基线(MomentReg、NoiseMLE、Wass-1)进行了比较。结果以多次随机种子下的均值±标准差形式报告,置信区间见补充材料。本工作贡献了一种可学习的、可解释的隐私对齐分层表征建模视角,而非仅提供事后审计。源代码:\href{https://github.com/mabo1215/bodhi-vlm.git}{Bodhi-VLM GitHub 仓库}

0
下载
关闭预览

相关内容

专知会员服务
12+阅读 · 2021年9月10日
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
13+阅读 · 2018年3月30日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
美国军方使用的10种反无人机武器(2026年更新)
专知会员服务
1+阅读 · 50分钟前
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关VIP内容
专知会员服务
12+阅读 · 2021年9月10日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员