Ulcerative colitis (UC) is a chronic mucosal inflammatory condition that places patients at increased risk of colorectal cancer. Colonoscopic surveillance remains the gold standard for assessing disease activity, and reporting typically relies on standardised endoscopic scoring metrics. The most widely used is the Mayo Endoscopic Score (MES), with some centres also adopting the Ulcerative Colitis Endoscopic Index of Severity (UCEIS). Both are descriptive assessments of mucosal inflammation (MES: 0 to 3; UCEIS: 0 to 8), where higher values indicate more severe disease. However, computational methods for automatically predicting these scores remain limited, largely due to the lack of publicly available expert-annotated datasets and the absence of robust benchmarking. There is also a significant research gap in generating clinically meaningful descriptions of UC images, despite image captioning being a well-established computer vision task. Variability in endoscopic systems and procedural workflows across centres further highlights the need for multi-centre datasets to ensure algorithmic robustness and generalisability. In this work, we introduce a curated multi-centre, multi-resolution dataset that includes expert-validated MES and UCEIS labels, alongside detailed clinical descriptions. To our knowledge, this is the first comprehensive dataset that combines dual scoring metrics for classification tasks with expert-generated captions describing mucosal appearance and clinically accepted reasoning for image captioning. This resource opens new opportunities for developing clinically meaningful multimodal algorithms. In addition to the dataset, we also provide benchmarking using convolutional neural networks, vision transformers, hybrid models, and widely used multimodal vision-language captioning algorithms.


翻译:溃疡性结肠炎(UC)是一种慢性黏膜炎症性疾病,会增加患者罹患结直肠癌的风险。结肠镜监测仍是评估疾病活动度的金标准,其报告通常依赖于标准化的内窥镜评分指标。应用最广泛的是梅奥内镜评分(MES),部分中心也采用溃疡性结肠炎内镜下严重程度指数(UCEIS)。两者均为对黏膜炎症的描述性评估(MES:0至3分;UCEIS:0至8分),分值越高表明疾病越严重。然而,自动预测这些评分的计算方法仍然有限,这主要由于缺乏公开可用的专家标注数据集以及缺少稳健的基准测试。尽管图像描述生成是计算机视觉领域一项成熟的任务,但在生成具有临床意义的UC图像描述方面仍存在显著的研究空白。不同中心内窥镜系统与操作流程的差异性进一步凸显了对多中心数据集的需求,以确保算法的稳健性与泛化能力。本研究引入了一个精心构建的多中心、多分辨率数据集,包含经专家验证的MES和UCEIS标签以及详细的临床描述。据我们所知,这是首个将用于分类任务的双重评分指标与专家生成的、描述黏膜外观及临床公认推理的图像描述相结合的综合性数据集。该资源为开发具有临床意义的多模态算法提供了新的机遇。除数据集外,我们还提供了基于卷积神经网络、视觉Transformer、混合模型以及广泛使用的多模态视觉-语言描述生成算法的基准测试结果。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
Cancer Cell综述|AI用于肿瘤学中的多模态数据集成
专知会员服务
35+阅读 · 2022年10月13日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
基于深度学习的医学图像半监督分割
CVer
14+阅读 · 2020年9月24日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
人工智能在战场行动中的演进及伊朗案例
专知会员服务
2+阅读 · 今天13:08
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
2+阅读 · 今天12:58
【博士论文】面向城市环境的可解释计算机视觉
专知会员服务
0+阅读 · 今天12:57
大语言模型的自改进机制:技术综述与未来展望
专知会员服务
0+阅读 · 今天12:50
《第四代军事特种作战部队选拔与评估》
专知会员服务
1+阅读 · 今天6:23
相关VIP内容
Cancer Cell综述|AI用于肿瘤学中的多模态数据集成
专知会员服务
35+阅读 · 2022年10月13日
相关基金
Top
微信扫码咨询专知VIP会员