Image generative models are known to duplicate images from the training data as part of their outputs, which can lead to privacy concerns when used for medical image generation. We propose a calibrated per-sample metric for detecting memorization and duplication of training data. Our metric uses image features extracted using an MRI foundation model, aggregates multi-layer whitened nearest-neighbor similarities, and maps them to a bounded \emph{Overfit/Novelty Index} (ONI) and \emph{Memorization Index} (MI) scores. Across three MRI datasets with controlled duplication percentages and typical image augmentations, our metric robustly detects duplication and provides more consistent metric values across datasets. At the sample level, our metric achieves near-perfect detection of duplicates.


翻译:图像生成模型在输出过程中会复制训练数据中的图像,这在医学图像生成应用中可能引发隐私问题。我们提出一种校准的逐样本度量方法,用于检测训练数据的记忆与复制行为。该度量利用MRI基础模型提取图像特征,聚合多层白化最近邻相似度,并将其映射至有界的\emph{过拟合/新颖性指数}(ONI)与\emph{记忆指数}(MI)评分。在三个包含可控复制比例及典型图像增强的MRI数据集上,本度量方法能稳健地检测复制行为,并在不同数据集间提供更一致的度量值。在样本层面,该度量方法实现了近乎完美的重复样本检测。

0
下载
关闭预览

相关内容

《利用合成数据生成加强军事决策支持》
专知会员服务
42+阅读 · 2024年12月30日
《深度学习医学图像配准》综述进展
专知会员服务
49+阅读 · 2022年5月9日
专知会员服务
30+阅读 · 2021年6月4日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员