Publicly available full-field digital mammography (FFDM) datasets remain limited in size, clinical annotations, and vendor diversity, hindering the development of robust models. We introduce LUMINA, a curated, multi-vendor FFDM dataset that explicitly encodes acquisition energy and vendor metadata to capture clinically relevant appearance variations often overlooked in existing benchmarks. This dataset contains 1824 images from 468 patients (960 benign, 864 malignant), with pathology-confirmed labels, BI-RADS assessments, and breast-density annotations. LUMINA spans six acquisition systems and includes both high- and low-energy imaging styles, enabling systematic analysis of vendor- and energy-induced domain shifts. To address these variations, we propose a foreground-only pixel-space alignment method (''energy harmonization'') that maps images to a low-energy reference while preserving lesion morphology. We benchmark CNN and transformer models on three clinically relevant tasks: diagnosis (benign vs. malignant), BI-RADS classification, and density estimation. Two-view models consistently outperform single-view models. EfficientNet-B0 achieves an AUC of 93.54% for diagnosis, while Swin-T achieves the best macro-AUC of 89.43% for density prediction. Harmonization improves performance across architectures and produces more localized Grad-CAM responses. Overall, LUMINA provides (1) a vendor-diverse benchmark and (2) a model-agnostic harmonization framework for reliable and deployable mammography AI.


翻译:现有的公开全视野数字乳腺X线影像(FFDM)数据集在规模、临床标注和厂商多样性方面仍十分有限,这阻碍了稳健模型的开发。我们提出LUMINA——一个经精心整理的多厂商FFDM数据集,该数据集显式编码了采集能量和厂商元数据,以捕捉现有基准测试常忽略的临床相关外观变异。该数据集包含来自468名患者的1824幅影像(960例良性、864例恶性),并配有病理确诊标签、BI-RADS评估和乳腺密度标注。LUMINA覆盖六种采集系统,同时包含高能量和低能量成像模式,从而支持对厂商和能量诱发域偏移的系统分析。为应对这些变异,我们提出一种仅前景像素空间对齐方法(“能量归一化”),在保留病灶形态的同时将影像映射至低能量参考图像。我们基于卷积神经网络和Transformer模型,在三个临床相关任务上进行基准测试:诊断(良性vs.恶性)、BI-RADS分类和密度估计。双视角模型表现始终优于单视角模型。EfficientNet-B0在诊断任务中达到93.54%的AUC,而Swin-T在密度预测任务中取得89.43%的最佳宏平均AUC。能量归一化方法可提升各架构的性能,并生成更聚焦的Grad-CAM响应。总体而言,LUMINA提供了(1)一个厂商多样的基准测试集,以及(2)一个模型无关的归一化框架,用于构建可靠且可部署的乳腺X线影像人工智能系统。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
视觉Transformer预训练模型的胸腔X线影像多标签分类
专知会员服务
14+阅读 · 2022年7月29日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
比xgboost强大的LightGBM:调参指南(带贝叶斯优化代码)
数据挖掘入门与实战
23+阅读 · 2018年4月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月11日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员