MieDB-100k: A Comprehensive Dataset for Medical Image Editing

The scarcity of high-quality data remains a primary bottleneck in adapting multimodal generative models for medical image editing. Existing medical image editing datasets often suffer from limited diversity, neglect of medical image understanding and inability to balance quality with scalability. To address these gaps, we propose MieDB-100k, a large-scale, high-quality and diverse dataset for text-guided medical image editing. It categorizes editing tasks into perspectives of Perception, Modification and Transformation, considering both understanding and generation abilities. We construct MieDB-100k via a data curation pipeline leveraging both modality-specific expert models and rule-based data synthetic methods, followed by rigorous manual inspection to ensure clinical fidelity. Extensive experiments demonstrate that model trained with MieDB-100k consistently outperform both open-source and proprietary models while exhibiting strong generalization ability. We anticipate that this dataset will serve as a cornerstone for future advancements in specialized medical image editing.

翻译：高质量数据的稀缺仍然是调整多模态生成模型以适应医学图像编辑的主要瓶颈。现有的医学图像编辑数据集通常存在多样性有限、忽视医学图像理解以及难以平衡质量与可扩展性的问题。为弥补这些不足，我们提出了MieDB-100k，一个用于文本引导医学图像编辑的大规模、高质量且多样化的数据集。它将编辑任务从感知、修改和转换三个视角进行分类，同时考虑了理解与生成能力。我们通过一个数据策展流程构建了MieDB-100k，该流程利用了特定模态的专家模型和基于规则的数据合成方法，并随后进行了严格的人工检查以确保临床保真度。大量实验表明，使用MieDB-100k训练的模型在表现出强大泛化能力的同时，其性能始终优于开源和专有模型。我们预计该数据集将成为未来专业医学图像编辑领域发展的基石。

相关内容

医学图像

关注 84

医学影像是指为了医疗或医学研究，对人体或人体某部分，以非侵入方式取得内部组织影像的技术与处理过程。它包含以下两个相对独立的研究方向：医学成像系统（medical imaging system）和医学图像处理（medical image processing）。前者是指图像行成的过程，包括对成像机理、成像设备、成像系统分析等问题的研究；后者是指对已经获得的图像作进一步的处理，其目的是或者是使原来不够清晰的图像复原，或者是为了突出图像中的某些特征信息，或者是对图像做模式分类等等。

扩撒模型如何做医学图像？MICCAI2023最新《扩散模型医学图像分析》综述，134页PPT全面阐述医学图像扩散模型方法体系

专知会员服务

42+阅读 · 2023年10月10日

【NeuralPS2023】Quilt-1M:组织病理学的一百万张图像-文本对

专知会员服务

19+阅读 · 2023年10月4日

【剑桥博士论文】深度神经网络的医学图像超分辨率，214页pdf

专知会员服务

26+阅读 · 2023年9月15日