Publicly available full-field digital mammography (FFDM) datasets remain limited in size, clinical annotations, and vendor diversity, hindering the development of robust models. We introduce LUMINA, a curated, multi-vendor FFDM dataset that explicitly encodes acquisition energy and vendor metadata to capture clinically relevant appearance variations often overlooked in existing benchmarks. This dataset contains 1824 images from 468 patients (960 benign, 864 malignant), with pathology-confirmed labels, BI-RADS assessments, and breast-density annotations. LUMINA spans six acquisition systems and includes both high- and low-energy imaging styles, enabling systematic analysis of vendor- and energy-induced domain shifts. To address these variations, we propose a foreground-only pixel-space alignment method (''energy harmonization'') that maps images to a low-energy reference while preserving lesion morphology. We benchmark CNN and transformer models on three clinically relevant tasks: diagnosis (benign vs. malignant), BI-RADS classification, and density estimation. Two-view models consistently outperform single-view models. EfficientNet-B0 achieves an AUC of 93.54% for diagnosis, while Swin-T achieves the best macro-AUC of 89.43% for density prediction. Harmonization improves performance across architectures and produces more localized Grad-CAM responses. Overall, LUMINA provides (1) a vendor-diverse benchmark and (2) a model-agnostic harmonization framework for reliable and deployable mammography AI.


翻译:公开可用的全视野数字乳腺X线摄影(FFDM)数据集在规模、临床标注和厂商多样性方面仍然有限,这阻碍了稳健模型的开发。我们推出了LUMINA,这是一个经过精心策划的多厂商FFDM数据集,它明确编码了采集能量和厂商元数据,以捕捉现有基准中常被忽略的临床相关外观变异。该数据集包含来自468名患者的1824幅图像(960例良性,864例恶性),并配有病理确认标签、BI-RADS评估和乳腺密度标注。LUMINA涵盖六种采集系统,并包含高能和低能两种成像风格,从而能够对厂商和能量引起的域偏移进行系统性分析。为应对这些变异,我们提出了一种仅针对前景的像素空间对齐方法(“能量标准化”),该方法将图像映射到低能参考标准,同时保留病灶形态。我们在三项临床相关任务上对CNN和Transformer模型进行了基准测试:诊断(良性与恶性)、BI-RADS分类和密度估计。双视图模型始终优于单视图模型。EfficientNet-B0在诊断任务上实现了93.54%的AUC,而Swin-T在密度预测任务上取得了最佳的宏观AUC,达到89.43%。标准化方法提升了所有架构的性能,并产生了更局部化的Grad-CAM响应。总体而言,LUMINA提供了(1)一个厂商多样化的基准数据集,以及(2)一个模型无关的标准化框架,旨在开发可靠且可部署的乳腺X线摄影人工智能。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
面向低光照图像增强的扩散模型
专知会员服务
15+阅读 · 2025年10月11日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
比xgboost强大的LightGBM:调参指南(带贝叶斯优化代码)
数据挖掘入门与实战
23+阅读 · 2018年4月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关VIP内容
面向低光照图像增强的扩散模型
专知会员服务
15+阅读 · 2025年10月11日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员