Accessing high-quality, open-access dermatopathology image datasets for learning and cross-referencing is a common challenge for clinicians and dermatopathology trainees. To establish a comprehensive open-access dermatopathology dataset for educational, cross-referencing, and machine-learning purposes, we employed a hybrid workflow to curate and categorize images from the PubMed Central (PMC) repository. We used specific keywords to extract relevant images, and classified them using a novel hybrid method that combined deep learning-based image modality classification with figure caption analyses. Validation on 651 manually annotated images demonstrated the robustness of our workflow, with an F-score of 89.6\% for the deep learning approach, 61.0\% for the keyword-based retrieval method, and 90.4\% for the hybrid approach. We retrieved over 7,772 images across 166 diagnoses and released this fully annotated dataset, reviewed by board-certified dermatopathologists. Using our dataset as a challenging task, we found the current image analysis algorithm from OpenAI inadequate for analyzing dermatopathology images. In conclusion, we have developed a large, peer-reviewed, open-access dermatopathology image dataset, DermpathNet, which features a semi-automated curation workflow.


翻译:获取高质量、开放获取的皮肤病理学图像数据集用于学习和交叉参考,是临床医生和皮肤病理学培训人员面临的普遍挑战。为建立用于教育、交叉参考和机器学习目的的综合开放获取皮肤病理学数据集,我们采用混合工作流对PubMed Central(PMC)存储库中的图像进行筛选和分类。我们使用特定关键词提取相关图像,并通过一种新颖的混合方法进行分类,该方法结合了基于深度学习的图像模态分类与图注分析。在651张人工标注图像上的验证证明了我们工作流的稳健性:深度学习方法的F分数为89.6%,基于关键词检索的方法为61.0%,混合方法为90.4%。我们检索了涵盖166种诊断的超过7,772张图像,并发布了这个经过委员会认证皮肤病理学家审核的完整标注数据集。使用我们的数据集作为一项挑战性任务,我们发现OpenAI当前的图像分析算法不足以分析皮肤病理学图像。总之,我们开发了一个大型、经过同行评审、开放获取的皮肤病理学图像数据集DermpathNet,其特点是采用了半自动化的数据筛选工作流。

0
下载
关闭预览

相关内容

PubMed GPT : 用于生物医学文本的特定领域大型语言模型
专知会员服务
38+阅读 · 2022年12月19日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
PubMed GPT : 用于生物医学文本的特定领域大型语言模型
专知会员服务
38+阅读 · 2022年12月19日
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员