Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos - 专知论文

会员服务 ·

0

视频 · 基准 · 标注 · 数据集 · 全流程 ·

Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

翻译：结肠基准（Colon-Bench）：面向全流程结肠镜检查视频的可扩展致密病灶标注智能体工作流

Abdullah Hamdi,Changchun Yang,Xin Gao

from arxiv, preprint

Early screening via colonoscopy is critical for colon cancer prevention, yet developing robust AI systems for this domain is hindered by the lack of densely annotated, long-sequence video datasets. Existing datasets predominantly focus on single-class polyp detection and lack the rich spatial, temporal, and linguistic annotations required to evaluate modern Multimodal Large Language Models (MLLMs). To address this critical gap, we introduce Colon-Bench, generated via a novel multi-stage agentic workflow. Our pipeline seamlessly integrates temporal proposals, bounding-box tracking, AI-driven visual confirmation, and human-in-the-loop review to scalably annotate full-procedure videos. The resulting verified benchmark is unprecedented in scope, encompassing 528 videos, 14 distinct lesion categories (including polyps, ulcers, and bleeding), over 300,000 bounding boxes, 213,000 segmentation masks, and 133,000 words of clinical descriptions. We utilize Colon-Bench to rigorously evaluate state-of-the-art MLLMs across lesion classification, Open-Vocabulary Video Object Segmentation (OV-VOS), and video Visual Question Answering (VQA). The MLLM results demonstrate surprisingly high localization performance in medical domains compared to SAM-3. Finally, we analyze common VQA errors from MLLMs to introduce a novel "colon-skill" prompting strategy, improving zero-shot MLLM performance by up to 9.7% across most MLLMs. The dataset and the code are available at https://abdullahamdi.com/colon-bench .

翻译：结肠镜早期筛查对于预防结肠癌至关重要，然而该领域鲁棒人工智能系统的研发因缺乏密集标注的长序列视频数据集而受阻。现有数据集主要聚焦于单类别息肉检测，缺乏评估现代多模态大语言模型（MLLMs）所需的丰富空间、时序及语言标注。为填补这一关键空白，我们提出结肠基准（Colon-Bench），该数据集通过一种新颖的多阶段智能体工作流生成。我们的流水线无缝整合了时序提议、边界框追踪、人工智能驱动的视觉确认及人在环审核，以实现全流程视频的可扩展标注。所得已验证基准在规模上前所未有，涵盖528段视频、14种病灶类别（包括息肉、溃疡和出血）、超过30万个边界框、21.3万个分割掩膜以及13.3万词临床描述。我们利用结肠基准（Colon-Bench）在病灶分类、开放词汇视频目标分割（OV-VOS）及视频视觉问答（VQA）任务上严格评估了最先进的MLLMs。结果显示，与SAM-3相比，MLLMs在医学领域展现了令人惊讶的高定位性能。最后，我们通过分析MLLMs常见的VQA错误，提出了一种新颖的"结肠技能"提示策略，将多数MLLMs的零样本性能提升最高达9.7%。数据集与代码见 https://abdullahamdi.com/colon-bench 。

0

相关内容

视频

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

《人工智能全科临床辅助诊断系统技术要求》团体标准正式实施

《人工智能全科临床辅助诊断系统技术要求》团体标准正式实施

专知会员服务

18+阅读 · 2024年8月30日

基于深度学习的小目标检测基准研究进展

基于深度学习的小目标检测基准研究进展

专知会员服务

30+阅读 · 2024年4月30日

上海市数字医学创新中心：2022中国智慧数字病理行业发展白皮书（附报告），56页pdf

上海市数字医学创新中心：2022中国智慧数字病理行业发展白皮书（附报告），56页pdf

专知会员服务

45+阅读 · 2023年1月30日

《深度学习医学图像配准》综述进展

《深度学习医学图像配准》综述进展

专知会员服务

49+阅读 · 2022年5月9日

人工智能技术在口腔正畸诊疗中的应用研究进展

人工智能技术在口腔正畸诊疗中的应用研究进展

专知会员服务

15+阅读 · 2022年5月1日

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

专知会员服务

35+阅读 · 2022年4月11日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

《信息技术人工智能面向机器学习的系统框架和功能要求》团体标准，11页pdf

《信息技术人工智能面向机器学习的系统框架和功能要求》团体标准，11页pdf

专知会员服务

57+阅读 · 2022年3月2日

【医疗AI论文推荐】乳腺癌检测的深度学习模型击败了来自纽约大学和麻省理工学院的5名全职放射科医生和以前的SOTA模型

【医疗AI论文推荐】乳腺癌检测的深度学习模型击败了来自纽约大学和麻省理工学院的5名全职放射科医生和以前的SOTA模型

专知会员服务

30+阅读 · 2019年12月31日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

Nature Medicine连发9篇论文，Jeff Dean、吴恩达等最新研究入列

Nature Medicine连发9篇论文，Jeff Dean、吴恩达等最新研究入列

新智元

15+阅读 · 2019年1月14日

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

人工智能前沿讲习班

12+阅读 · 2018年12月25日

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

GAN生成式对抗网络

23+阅读 · 2018年12月2日

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

AI前线

10+阅读 · 2018年11月2日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

干货 | 目标检测入门，看这篇就够了（下）

干货 | 目标检测入门，看这篇就够了（下）

AI100

10+阅读 · 2018年3月17日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

全球肝脏肿瘤病灶区CT图像分割挑战大赛，联想E-Health夺得冠军

全球肝脏肿瘤病灶区CT图像分割挑战大赛，联想E-Health夺得冠军

新智元

10+阅读 · 2017年9月22日

REGgamma蛋白酶体系统介导肠道炎症与恶性结肠肿瘤的机制研究

国家自然科学基金

0+阅读 · 2016年12月31日

多分析方法与多样本整合的代谢组学研究食管癌淋巴结转移生物标志物

国家自然科学基金

0+阅读 · 2015年12月31日

结直肠癌多种microRNA的单分子检测研究

国家自然科学基金

0+阅读 · 2015年12月31日

HDAC2磷酸化激活自身SUMO E3连接酶活性促进结肠癌细胞生长的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

肿瘤相关成纤维细胞表达COL6A3基因对结直肠癌恶性潜能的影响及临床意义

国家自然科学基金

0+阅读 · 2015年12月31日

以基因功能研究为基础的结直肠癌易感区段10q22.3的精细定位

国家自然科学基金

0+阅读 · 2015年12月31日

基于映射下效用值测量的我国大肠癌筛查策略的成本效用分析

国家自然科学基金

1+阅读 · 2015年12月31日

Bi2S3/贵金属团簇复合纳米探针在大肠癌早期诊断与治疗中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

质子NMR指纹谱结合模式识别筛寻大肠癌特征性粪便标志物组

国家自然科学基金

0+阅读 · 2014年12月31日

基于诊疗一体化智能纳米探针的影像导航的肿瘤光热治疗研究

国家自然科学基金

0+阅读 · 2014年12月31日

3D Foundation Model for Generalizable Disease Detection in Head Computed Tomography

Arxiv

0+阅读 · 4月21日

A Dynamic Prognostic Prediction Method for Colorectal Cancer Liver Metastasis

Arxiv

0+阅读 · 4月8日

AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis

Arxiv

0+阅读 · 4月3日

OkanNet: A Lightweight Deep Learning Architecture for Classification of Brain Tumor from MRI Images

Arxiv

0+阅读 · 4月1日

A comprehensive multimodal dataset and benchmark for ulcerative colitis scoring in endoscopy

Arxiv

0+阅读 · 3月15日

VeriWeb: Verifiable Long-Chain Web Benchmark for Agentic Information-Seeking

Arxiv

0+阅读 · 2月27日

ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

Arxiv

0+阅读 · 2月26日

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Arxiv

0+阅读 · 2月26日

BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Arxiv

0+阅读 · 2月24日

SOP-Bench: Complex Industrial SOPs for Evaluating LLM Agents

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

0+阅读 · 10分钟前

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

1+阅读 · 30分钟前

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

1+阅读 · 38分钟前

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

0+阅读 · 47分钟前

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

1+阅读 · 51分钟前

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

0+阅读 · 今天14:43

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

0+阅读 · 今天14:40

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

12+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

11+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

8+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

14+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

《人工智能全科临床辅助诊断系统技术要求》团体标准正式实施

《人工智能全科临床辅助诊断系统技术要求》团体标准正式实施

专知会员服务

18+阅读 · 2024年8月30日

基于深度学习的小目标检测基准研究进展

基于深度学习的小目标检测基准研究进展

专知会员服务

30+阅读 · 2024年4月30日

上海市数字医学创新中心：2022中国智慧数字病理行业发展白皮书（附报告），56页pdf

上海市数字医学创新中心：2022中国智慧数字病理行业发展白皮书（附报告），56页pdf

专知会员服务

45+阅读 · 2023年1月30日

《深度学习医学图像配准》综述进展

《深度学习医学图像配准》综述进展

专知会员服务

49+阅读 · 2022年5月9日

人工智能技术在口腔正畸诊疗中的应用研究进展

人工智能技术在口腔正畸诊疗中的应用研究进展

专知会员服务

15+阅读 · 2022年5月1日

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

专知会员服务

35+阅读 · 2022年4月11日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

《信息技术人工智能面向机器学习的系统框架和功能要求》团体标准，11页pdf

《信息技术人工智能面向机器学习的系统框架和功能要求》团体标准，11页pdf

专知会员服务

57+阅读 · 2022年3月2日

【医疗AI论文推荐】乳腺癌检测的深度学习模型击败了来自纽约大学和麻省理工学院的5名全职放射科医生和以前的SOTA模型

【医疗AI论文推荐】乳腺癌检测的深度学习模型击败了来自纽约大学和麻省理工学院的5名全职放射科医生和以前的SOTA模型

专知会员服务

30+阅读 · 2019年12月31日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

Nature Medicine连发9篇论文，Jeff Dean、吴恩达等最新研究入列

Nature Medicine连发9篇论文，Jeff Dean、吴恩达等最新研究入列

新智元

15+阅读 · 2019年1月14日

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

人工智能前沿讲习班

12+阅读 · 2018年12月25日

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

GAN生成式对抗网络

23+阅读 · 2018年12月2日

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

AI前线

10+阅读 · 2018年11月2日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

干货 | 目标检测入门，看这篇就够了（下）

干货 | 目标检测入门，看这篇就够了（下）

AI100

10+阅读 · 2018年3月17日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

全球肝脏肿瘤病灶区CT图像分割挑战大赛，联想E-Health夺得冠军

全球肝脏肿瘤病灶区CT图像分割挑战大赛，联想E-Health夺得冠军

新智元

10+阅读 · 2017年9月22日

相关论文

3D Foundation Model for Generalizable Disease Detection in Head Computed Tomography

Arxiv

0+阅读 · 4月21日

A Dynamic Prognostic Prediction Method for Colorectal Cancer Liver Metastasis

Arxiv

0+阅读 · 4月8日

AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis

Arxiv

0+阅读 · 4月3日

OkanNet: A Lightweight Deep Learning Architecture for Classification of Brain Tumor from MRI Images

Arxiv

0+阅读 · 4月1日

A comprehensive multimodal dataset and benchmark for ulcerative colitis scoring in endoscopy

Arxiv

0+阅读 · 3月15日

VeriWeb: Verifiable Long-Chain Web Benchmark for Agentic Information-Seeking

Arxiv

0+阅读 · 2月27日

ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

Arxiv

0+阅读 · 2月26日

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Arxiv

0+阅读 · 2月26日

BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Arxiv

0+阅读 · 2月24日

SOP-Bench: Complex Industrial SOPs for Evaluating LLM Agents

Arxiv

0+阅读 · 2月23日

相关基金

REGgamma蛋白酶体系统介导肠道炎症与恶性结肠肿瘤的机制研究

国家自然科学基金

0+阅读 · 2016年12月31日

多分析方法与多样本整合的代谢组学研究食管癌淋巴结转移生物标志物

国家自然科学基金

0+阅读 · 2015年12月31日

结直肠癌多种microRNA的单分子检测研究

国家自然科学基金

0+阅读 · 2015年12月31日

HDAC2磷酸化激活自身SUMO E3连接酶活性促进结肠癌细胞生长的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

肿瘤相关成纤维细胞表达COL6A3基因对结直肠癌恶性潜能的影响及临床意义

国家自然科学基金

0+阅读 · 2015年12月31日

以基因功能研究为基础的结直肠癌易感区段10q22.3的精细定位

国家自然科学基金

0+阅读 · 2015年12月31日

基于映射下效用值测量的我国大肠癌筛查策略的成本效用分析

国家自然科学基金

1+阅读 · 2015年12月31日

Bi2S3/贵金属团簇复合纳米探针在大肠癌早期诊断与治疗中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

质子NMR指纹谱结合模式识别筛寻大肠癌特征性粪便标志物组

国家自然科学基金

0+阅读 · 2014年12月31日

基于诊疗一体化智能纳米探针的影像导航的肿瘤光热治疗研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员