The adoption of artificial intelligence in dermatology promises democratized access to healthcare, but model reliability depends on the quality and comprehensiveness of the data fueling these models. Despite rapid growth in publicly available dermatology images, the field lacks quantitative key performance indicators to measure whether new datasets expand clinical coverage or merely replicate what is already known. Here we present SkinMap, a multi-modal framework for the first comprehensive audit of the field's entire data basis. We unify the publicly available dermatology datasets into a single, queryable semantic atlas comprising more than 1.1 million images of skin conditions and quantify (i) informational novelty over time, (ii) dataset redundancy, and (iii) representation gaps across demographics and diagnoses. Despite exponential growth in dataset sizes, informational novelty across time has somewhat plateaued: Some clusters, such as common neoplasms on fair skin, are densely populated, while underrepresented skin types and many rare diseases remain unaddressed. We further identify structural gaps in coverage: Darker skin tones (Fitzpatrick V-VI) constitute only 5.8% of images and pediatric patients only 3.0%, while many rare diseases and phenotype combinations remain sparsely represented. SkinMap provides infrastructure to measure blind spots and steer strategic data acquisition toward undercovered regions of clinical space.


翻译:人工智能在皮肤病学中的应用有望实现医疗服务的民主化普及,但模型的可靠性取决于驱动这些模型的数据质量与全面性。尽管公开皮肤病图像数据快速增长,该领域仍缺乏量化关键绩效指标来衡量新数据集究竟是拓展了临床覆盖范围,抑或仅重复已有知识。本文提出SkinMap——首个对该领域全部数据基础进行全面审计的多模态框架。我们将公开皮肤病数据集整合为可查询的语义图谱,包含逾110万张皮肤病症图像,并量化评估:(一)随时间推移的信息新颖性,(二)数据集冗余度,以及(三)人口统计学特征与诊断类别间的表征差距。尽管数据集规模呈指数级增长,跨时段信息新颖性却趋于平缓:某些类别(如浅肤色常见肿瘤)数据密集,而代表性不足的皮肤类型及众多罕见疾病仍未被充分覆盖。我们进一步发现覆盖范围存在结构性缺口:深色皮肤(Fitzpatrick V-VI型)仅占图像总量的5.8%,儿科患者仅占3.0%,同时许多罕见疾病及表型组合仍呈现稀疏表征。SkinMap为量化认知盲区提供了基础设施,可引导战略数据采集向临床空间中未被充分覆盖的区域推进。

0
下载
关闭预览

相关内容

小样本学习(Few-shot Learning)综述
PaperWeekly
120+阅读 · 2019年4月1日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员