Capsule endoscopy (CE) enables non-invasive gastrointestinal screening, but current CE research remains largely limited to frame-level classification and detection, leaving video-level analysis underexplored. To bridge this gap, we introduce and formally define a new task, diagnosis-driven CE video summarization, which requires extracting key evidence frames that covers clinically meaningful findings and making accurate diagnoses from those evidence frames. This setting is challenging because diagnostically relevant events are extremely sparse and can be overwhelmed by tens of thousands of redundant normal frames, while individual observations are often ambiguous due to motion blur, debris, specular highlights, and rapid viewpoint changes. To facilitate research in this direction, we introduce VideoCAP, the first CE dataset with diagnosis-driven annotations derived from real clinical reports. VideoCAP comprises 240 full-length videos and provides realistic supervision for both key evidence frame extraction and diagnosis. To address this task, we further propose DiCE, a clinician-inspired framework that mirrors the standard CE reading workflow. DiCE first performs efficient candidate screening over the raw video, then uses a Context Weaver to organize candidates into coherent diagnostic contexts that preserve distinct lesion events, and an Evidence Converger to aggregate multi-frame evidence within each context into robust clip-level judgments. Experiments show that DiCE consistently outperforms state-of-the-art methods, producing concise and clinically reliable diagnostic summaries. These results highlight diagnosis-driven contextual reasoning as a promising paradigm for ultra-long CE video summarization.


翻译:胶囊内镜(CE)能够实现无创的胃肠道筛查,但当前的CE研究仍主要集中在帧级别的分类和检测,视频级别的分析尚未得到充分探索。为弥合这一差距,我们引入并正式定义了一个新任务——诊断驱动的CE视频摘要,该任务需要提取覆盖具有临床意义的发现的关键证据帧,并从这些证据帧中做出准确诊断。这一设定具有挑战性,因为诊断相关的事件极为稀疏,可能被成千上万的冗余正常帧所淹没,而由于运动模糊、碎屑、镜面高光和视角快速变化,单个观察结果往往模棱两可。为促进该方向的研究,我们引入了VideoCAP,这是首个具有源自真实临床报告的诊断驱动标注的CE数据集。VideoCAP包含240个全长视频,并为关键证据帧提取和诊断提供了现实的监督。为解决这一任务,我们进一步提出了DiCE,这是一个模仿标准CE阅读流程的临床启发式框架。DiCE首先对原始视频进行高效的候选筛查,然后使用上下文编织器将候选帧组织成连贯的诊断上下文以保留不同的病变事件,并使用证据汇聚器将每个上下文内的多帧证据聚合为稳健的片段级判断。实验表明,DiCE始终优于现有最先进方法,生成简洁且临床可靠的诊断摘要。这些结果凸显了诊断驱动的上下文推理作为超长CE视频摘要的一种有前景的范式。

0
下载
关闭预览

相关内容

【MIT博士论文】利用深度学习改进医学影像分割,165页pdf
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
69+阅读 · 2020年2月29日
CVPR2019 |《胶囊网络(Capsule Networks)综述》,附93页PPT下载
人工智能前沿讲习班
35+阅读 · 2019年7月4日
CVPR2019教程《胶囊网络(Capsule Networks)综述》,附93页PPT
GAN生成式对抗网络
29+阅读 · 2019年6月21日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
从AlexNet到胶囊网络,CNN这五年(视频详解)
大数据文摘
11+阅读 · 2017年12月22日
CapsNet入门系列之二:胶囊如何工作
论智
11+阅读 · 2017年11月22日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 今天16:48
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
7+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关VIP内容
【MIT博士论文】利用深度学习改进医学影像分割,165页pdf
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
69+阅读 · 2020年2月29日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员