Colonoscopy video generation delivers dynamic, information-rich data critical for diagnosing intestinal diseases, particularly in data-scarce scenarios. High-quality video generation demands temporal consistency and precise control over clinical attributes, but faces challenges from irregular intestinal structures, diverse disease representations, and various imaging modalities. To this end, we propose ColoDiff, a diffusion-based framework that generates dynamic-consistent and content-aware colonoscopy videos, aiming to alleviate data shortage and assist clinical analysis. At the inter-frame level, our TimeStream module decouples temporal dependency from video sequences through a cross-frame tokenization mechanism, enabling intricate dynamic modeling despite irregular intestinal structures. At the intra-frame level, our Content-Aware module incorporates noise-injected embeddings and learnable prototypes to realize precise control over clinical attributes, breaking through the coarse guidance of diffusion models. Additionally, ColoDiff employs a non-Markovian sampling strategy that cuts steps by over 90% for real-time generation. ColoDiff is evaluated across three public datasets and one hospital database, based on both generation metrics and downstream tasks including disease diagnosis, modality discrimination, bowel preparation scoring, and lesion segmentation. Extensive experiments show ColoDiff generates videos with smooth transitions and rich dynamics. ColoDiff presents an effort in controllable colonoscopy video generation, revealing the potential of synthetic videos in complementing authentic representation and mitigating data scarcity in clinical settings.


翻译:结肠镜视频生成为肠道疾病诊断提供动态且信息丰富的数据,在数据稀缺场景中尤为重要。高质量视频生成需满足时序一致性并对临床属性实现精确控制,但面临肠道结构不规则、疾病表征多样及成像模态各异等挑战。为此,我们提出ColoDiff——一种基于扩散模型的框架,能够生成动态一致且内容感知的结肠镜视频,旨在缓解数据短缺问题并辅助临床分析。在帧间层面,我们的TimeStream模块通过跨帧标记化机制解耦视频序列中的时序依赖性,从而在不规则肠道结构下实现精细的动态建模。在帧内层面,我们的内容感知模块结合噪声注入嵌入与可学习原型,实现对临床属性的精确控制,突破了扩散模型粗粒度引导的局限。此外,ColoDiff采用非马尔可夫采样策略,将生成步骤减少90%以上以实现实时生成。我们在三个公共数据集和一个医院数据库上对ColoDiff进行评估,评估指标涵盖生成质量及下游任务(包括疾病诊断、模态判别、肠道准备评分和病灶分割)。大量实验表明ColoDiff能生成具有平滑过渡与丰富动态的视频。本研究为可控结肠镜视频生成提供了创新方案,揭示了合成视频在补充真实表征、缓解临床数据稀缺方面的潜力。

0
下载
关闭预览

相关内容

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容
专知会员服务
28+阅读 · 2023年4月4日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
34+阅读 · 2019年9月20日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美军MAVEN项目全面解析:算法战架构
专知会员服务
8+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
6+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
13+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
19+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
4+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
5+阅读 · 4月12日
相关VIP内容
【CVPR2023】DiffCollage:用扩散模型并行生成大量内容
专知会员服务
28+阅读 · 2023年4月4日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
34+阅读 · 2019年9月20日
相关资讯
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员