This work introduces SkinGenBench, a systematic biomedical imaging benchmark that investigates how preprocessing complexity interacts with generative model choice for synthetic dermoscopic image augmentation and downstream melanoma diagnosis. Using a curated dataset of $14,116$ dermoscopic images from HAM10000 and MILK10K across five lesion classes, we evaluate the two representative generative paradigms: StyleGAN2-ADA and Denoising Diffusion Probabilistic Models (DDPMs) under basic geometric augmentation and advanced artifact removal pipelines. Synthetic melanoma images are assessed using established perceptual and distributional metrics (FID, KID, IS), feature space analysis, and their impact on diagnostic performance across five downstream classifiers. Experimental results demonstrate that generative architecture choice has a stronger influence on both image fidelity and diagnostic utility than preprocessing complexity. StyleGAN2-ADA consistently produced synthetic images more closely aligned with real data distributions, achieving the lowest FID ($\approx 65.5$) and KID ($\approx 0.05$), while diffusion models generated higher variance samples at the cost of reduced perceptual fidelity and class anchoring. Advanced artifact removal yielded only marginal improvements in generative metrics and provided limited downstream diagnostic gains, suggesting possible suppression of clinically relevant texture cues. In contrast, synthetic data augmentation substantially improved melanoma detection with $8$-$15$\% absolute gains in melanoma F1-score, and ViT-B/16 achieving F1 $\approx 0.88$ and ROC-AUC $\approx 0.98$, representing an improvement of approximately $14\%$ over non-augmented baselines. Our code can be found at https://github.com/adarsh-crafts/SkinGenBench


翻译:本文提出SkinGenBench,一个系统性生物医学成像基准,用于研究预处理复杂性如何与生成模型选择交互,以影响合成皮肤镜图像增强及下游黑色素瘤诊断。利用来自HAM10000和MILK10K数据集、涵盖五类病变的14,116张皮肤镜图像,我们评估了两种代表性生成范式:在基本几何增强和高级伪影去除流程下的StyleGAN2-ADA与去噪扩散概率模型(DDPMs)。合成黑色素瘤图像通过已建立的感知和分布度量(FID、KID、IS)、特征空间分析及其对五个下游分类器诊断性能的影响进行评估。实验结果表明,生成架构选择对图像保真度和诊断效用的影响均强于预处理复杂性。StyleGAN2-ADA持续生成与真实数据分布更一致的合成图像,实现了最低的FID(约65.5)和KID(约0.05),而扩散模型以降低感知保真度和类别锚定为代价,生成了更高方差的样本。高级伪影去除仅在生成度量中带来边际改善,并提供了有限的下游诊断增益,提示可能抑制了临床相关纹理线索。相比之下,合成数据增强显著提升了黑色素瘤检测,其F1分数绝对值提高8%-15%,且ViT-B/16实现了F1约0.88和ROC-AUC约0.98,相较于未增强基线提升了约14%。我们的代码可在https://github.com/adarsh-crafts/SkinGenBench 获取。

0
下载
关闭预览

相关内容

【博士论文】结合图像与文本以提升医学图像理解
专知会员服务
30+阅读 · 2025年3月1日
PubMed GPT : 用于生物医学文本的特定领域大型语言模型
专知会员服务
38+阅读 · 2022年12月19日
多模态深度学习在生物医学数据融合中的应用研究进展
专知会员服务
62+阅读 · 2022年5月31日
《深度学习医学图像配准》综述进展
专知会员服务
49+阅读 · 2022年5月9日
专知会员服务
33+阅读 · 2021年7月26日
自回归模型:PixelCNN
专知会员服务
29+阅读 · 2020年3月21日
DeepReg:开源深度学习医学图像配准工具包
专知
35+阅读 · 2020年8月29日
关于GANs在医学图像领域应用的总结
计算机视觉life
13+阅读 · 2019年7月25日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员