ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

Colonoscopy video generation delivers dynamic, information-rich data critical for diagnosing intestinal diseases, particularly in data-scarce scenarios. High-quality video generation demands temporal consistency and precise control over clinical attributes, but faces challenges from irregular intestinal structures, diverse disease representations, and various imaging modalities. To this end, we propose ColoDiff, a diffusion-based framework that generates dynamic-consistent and content-aware colonoscopy videos, aiming to alleviate data shortage and assist clinical analysis. At the inter-frame level, our TimeStream module decouples temporal dependency from video sequences through a cross-frame tokenization mechanism, enabling intricate dynamic modeling despite irregular intestinal structures. At the intra-frame level, our Content-Aware module incorporates noise-injected embeddings and learnable prototypes to realize precise control over clinical attributes, breaking through the coarse guidance of diffusion models. Additionally, ColoDiff employs a non-Markovian sampling strategy that cuts steps by over 90% for real-time generation. ColoDiff is evaluated across three public datasets and one hospital database, based on both generation metrics and downstream tasks including disease diagnosis, modality discrimination, bowel preparation scoring, and lesion segmentation. Extensive experiments show ColoDiff generates videos with smooth transitions and rich dynamics. ColoDiff presents an effort in controllable colonoscopy video generation, revealing the potential of synthetic videos in complementing authentic representation and mitigating data scarcity in clinical settings.

翻译：结肠镜视频生成为肠道疾病诊断提供动态且信息丰富的数据，在数据稀缺场景中尤为重要。高质量视频生成需满足时序一致性并对临床属性实现精确控制，但面临肠道结构不规则、疾病表征多样及成像模态各异等挑战。为此，我们提出ColoDiff——一种基于扩散模型的框架，能够生成动态一致且内容感知的结肠镜视频，旨在缓解数据短缺问题并辅助临床分析。在帧间层面，我们的TimeStream模块通过跨帧标记化机制解耦视频序列中的时序依赖性，从而在不规则肠道结构下实现精细的动态建模。在帧内层面，我们的内容感知模块结合噪声注入嵌入与可学习原型，实现对临床属性的精确控制，突破了扩散模型粗粒度引导的局限。此外，ColoDiff采用非马尔可夫采样策略，将生成步骤减少90%以上以实现实时生成。我们在三个公共数据集和一个医院数据库上对ColoDiff进行评估，评估指标涵盖生成质量及下游任务（包括疾病诊断、模态判别、肠道准备评分和病灶分割）。大量实验表明ColoDiff能生成具有平滑过渡与丰富动态的视频。本研究为可控结肠镜视频生成提供了创新方案，揭示了合成视频在补充真实表征、缓解临床数据稀缺方面的潜力。