LungCURE: Benchmarking Multimodal Real-World Clinical Reasoning for Precision Lung Cancer Diagnosis and Treatment - 专知论文

会员服务 ·

0

多模 · 模态 · 基准 · 多模态 · 临床决策支持 ·

LungCURE: Benchmarking Multimodal Real-World Clinical Reasoning for Precision Lung Cancer Diagnosis and Treatment

翻译：LungCURE: 面向精准肺癌诊断与治疗的多模态真实世界临床推理基准

Fangyu Hao,Jiayu Yang,Yifan Zhu,Zijun Yu,Qicen Wu,Wang Yunlong,Jiawei Li,Yulin Liu,Xu Zeng,Guanting Chen,Shihao Li,Zhonghong Ou,Meina Song,Mengyang Sun,Haoran Luo,Yu Shi,Yingyi Wang

from arxiv, 20 pages, 22 figures

Lung cancer clinical decision support demands precise reasoning across complex, multi-stage oncological workflows. Existing multimodal large language models (MLLMs) fail to handle guideline-constrained staging and treatment reasoning. We formalize three oncological precision treatment (OPT) tasks for lung cancer, spanning TNM staging, treatment recommendation, and end-to-end clinical decision support. We introduce LungCURE, the first standardized multimodal benchmark built from 1,000 real-world, clinician-labeled cases across more than 10 hospitals. We further propose LCAgent, a multi-agent framework that ensures guideline-compliant lung cancer clinical decision-making by suppressing cascading reasoning errors across the clinical pathway. Experiments reveal large differences across various large language models (LLMs) in their capabilities for complex medical reasoning, when given precise treatment requirements. We further verify that LCAgent, as a simple yet effective plugin, enhances the reasoning performance of LLMs in real-world medical scenarios.

翻译：肺癌临床决策支持需要在复杂、多阶段的肿瘤诊疗流程中进行精确推理。现有的多模态大语言模型（MLLMs）难以处理受指南约束的分期和治疗推理任务。我们形式化定义了肺癌的三个肿瘤精准治疗（OPT）任务，涵盖TNM分期、治疗推荐和端到端临床决策支持。我们提出了LungCURE，这是首个基于1000例来自超过10家医院的真实世界、经临床医生标注的病例构建的标准化多模态基准。此外，我们提出了LCAgent，一种多智能体框架，通过抑制临床路径中的级联推理错误，确保符合指南规范的肺癌临床决策。实验表明，在给定精准治疗需求的条件下，各类大语言模型（LLMs）在复杂医学推理能力上存在显著差异。我们进一步验证了LCAgent作为一个简单而有效的插件，能够增强LLMs在真实医疗场景中的推理性能。

0

相关内容

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

专知会员服务

22+阅读 · 2025年11月23日

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

专知会员服务

12+阅读 · 2025年6月17日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

专知会员服务

56+阅读 · 2024年11月17日

【大模型+仿射科学】LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

【大模型+仿射科学】LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

专知会员服务

24+阅读 · 2023年9月15日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

《用于胸部 X 射线自动肺部疾病分析的深度学习》汉堡科技大学博士论文

《用于胸部 X 射线自动肺部疾病分析的深度学习》汉堡科技大学博士论文

专知会员服务

35+阅读 · 2022年4月17日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

2019 ASCO，一起细数那些深刻影响NSCLC临床实践而又易被忽略的重要研究

2019 ASCO，一起细数那些深刻影响NSCLC临床实践而又易被忽略的重要研究

肿瘤资讯

19+阅读 · 2019年6月13日

抗生素影响NSCLC免疫治疗疗效？周彩存教授团队最新研究成果告诉您答案

抗生素影响NSCLC免疫治疗疗效？周彩存教授团队最新研究成果告诉您答案

肿瘤资讯

11+阅读 · 2019年5月1日

【ELCC 2019】PACIFIC研究再度来袭，durvalumab作为不可切除Ⅲ期NSCLC标准治疗再添新证据

【ELCC 2019】PACIFIC研究再度来袭，durvalumab作为不可切除Ⅲ期NSCLC标准治疗再添新证据

肿瘤资讯

13+阅读 · 2019年4月15日

肿瘤微环境评分: 预测肿瘤免疫治疗疗效的新方法

肿瘤微环境评分: 预测肿瘤免疫治疗疗效的新方法

肿瘤资讯

12+阅读 · 2019年3月29日

Ⅳa 期肺腺癌，三线治疗 33 个月竟奇迹降期手术 | 龙哥查房

Ⅳa 期肺腺癌，三线治疗 33 个月竟奇迹降期手术 | 龙哥查房

肿瘤资讯

11+阅读 · 2019年3月13日

【1916】Lung Cancer发表 | KEYNOTE-021研究：帕博利珠单抗联合不同化疗方案的I期研究探索

【1916】Lung Cancer发表 | KEYNOTE-021研究：帕博利珠单抗联合不同化疗方案的I期研究探索

肿瘤资讯

12+阅读 · 2018年11月12日

基于GWAS的肺癌预后相关miRNA协同调控网络的识别及其调控机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向肺癌临床辅助诊疗决策的多模态数据融合分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

基于荧光纳米簇的“关开”型FRET传感器用于血清中多种肿瘤标志物同时检测

国家自然科学基金

0+阅读 · 2015年12月31日

分子层次上肺癌子型标记物识别的计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

lncRNA Rian在肺癌发生中的作用及与miR-370互作机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

肺癌转移相关microRNA的筛选鉴定和临床应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于分子成像的非小细胞肺癌EGFR在体分子分型研究

国家自然科学基金

0+阅读 · 2014年12月31日

智能化双靶向肿瘤光学/核素/MRI多模态分子探针的合成及其性能研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于分子靶向和多模融合的肝癌边界精准定位方法关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

PACE-RAG: Patient-Aware Contextual and Evidence-Constrained RAG for Clinical Drug Recommendation

Arxiv

0+阅读 · 6月16日

Belief-Space Control for Personalized Cancer Treatment via Active Inference

Arxiv

0+阅读 · 6月15日

Patient-centered visualization of multistage cancer treatment trajectories

Arxiv

0+阅读 · 6月15日

Trusting Right Predictions for Wrong Reasons: A LIME Based Analysis of Deep Learning Interpretability in Lung Cancer Diagnosis

Arxiv

0+阅读 · 6月14日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 6月10日

Training Set Augmentation and Biology-Aware Harmonization Improve Radiomic Models for Lung Cancer Prediction in Indeterminate Nodules

Arxiv

0+阅读 · 6月9日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 6月3日

MoSAIC: Multi-Resolution Spatial Regression Analysis of Cellular Colocalizations in Cancer Imaging

Arxiv

0+阅读 · 5月28日

Evaluating Physician-AI Interaction for Cancer Management: Paving the Path towards Precision Oncology

Arxiv

0+阅读 · 5月17日

Handling Missing Modalities in Multimodal Survival Prediction for Non-Small Cell Lung Cancer

Arxiv

0+阅读 · 4月24日

VIP会员

文章信息

相关主题

临床决策支持

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

专知会员服务

22+阅读 · 2025年11月23日

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

专知会员服务

12+阅读 · 2025年6月17日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

专知会员服务

56+阅读 · 2024年11月17日

【大模型+仿射科学】LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

【大模型+仿射科学】LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

专知会员服务

24+阅读 · 2023年9月15日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

《用于胸部 X 射线自动肺部疾病分析的深度学习》汉堡科技大学博士论文

《用于胸部 X 射线自动肺部疾病分析的深度学习》汉堡科技大学博士论文

专知会员服务

35+阅读 · 2022年4月17日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

2019 ASCO，一起细数那些深刻影响NSCLC临床实践而又易被忽略的重要研究

2019 ASCO，一起细数那些深刻影响NSCLC临床实践而又易被忽略的重要研究

肿瘤资讯

19+阅读 · 2019年6月13日

抗生素影响NSCLC免疫治疗疗效？周彩存教授团队最新研究成果告诉您答案

抗生素影响NSCLC免疫治疗疗效？周彩存教授团队最新研究成果告诉您答案

肿瘤资讯

11+阅读 · 2019年5月1日

【ELCC 2019】PACIFIC研究再度来袭，durvalumab作为不可切除Ⅲ期NSCLC标准治疗再添新证据

【ELCC 2019】PACIFIC研究再度来袭，durvalumab作为不可切除Ⅲ期NSCLC标准治疗再添新证据

肿瘤资讯

13+阅读 · 2019年4月15日

肿瘤微环境评分: 预测肿瘤免疫治疗疗效的新方法

肿瘤微环境评分: 预测肿瘤免疫治疗疗效的新方法

肿瘤资讯

12+阅读 · 2019年3月29日

Ⅳa 期肺腺癌，三线治疗 33 个月竟奇迹降期手术 | 龙哥查房

Ⅳa 期肺腺癌，三线治疗 33 个月竟奇迹降期手术 | 龙哥查房

肿瘤资讯

11+阅读 · 2019年3月13日

【1916】Lung Cancer发表 | KEYNOTE-021研究：帕博利珠单抗联合不同化疗方案的I期研究探索

【1916】Lung Cancer发表 | KEYNOTE-021研究：帕博利珠单抗联合不同化疗方案的I期研究探索

肿瘤资讯

12+阅读 · 2018年11月12日

相关论文

PACE-RAG: Patient-Aware Contextual and Evidence-Constrained RAG for Clinical Drug Recommendation

Arxiv

0+阅读 · 6月16日

Belief-Space Control for Personalized Cancer Treatment via Active Inference

Arxiv

0+阅读 · 6月15日

Patient-centered visualization of multistage cancer treatment trajectories

Arxiv

0+阅读 · 6月15日

Trusting Right Predictions for Wrong Reasons: A LIME Based Analysis of Deep Learning Interpretability in Lung Cancer Diagnosis

Arxiv

0+阅读 · 6月14日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 6月10日

Training Set Augmentation and Biology-Aware Harmonization Improve Radiomic Models for Lung Cancer Prediction in Indeterminate Nodules

Arxiv

0+阅读 · 6月9日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 6月3日

MoSAIC: Multi-Resolution Spatial Regression Analysis of Cellular Colocalizations in Cancer Imaging

Arxiv

0+阅读 · 5月28日

Evaluating Physician-AI Interaction for Cancer Management: Paving the Path towards Precision Oncology

Arxiv

0+阅读 · 5月17日

Handling Missing Modalities in Multimodal Survival Prediction for Non-Small Cell Lung Cancer

Arxiv

0+阅读 · 4月24日

相关基金

基于GWAS的肺癌预后相关miRNA协同调控网络的识别及其调控机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向肺癌临床辅助诊疗决策的多模态数据融合分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

基于荧光纳米簇的“关开”型FRET传感器用于血清中多种肿瘤标志物同时检测

国家自然科学基金

0+阅读 · 2015年12月31日

分子层次上肺癌子型标记物识别的计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

lncRNA Rian在肺癌发生中的作用及与miR-370互作机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

肺癌转移相关microRNA的筛选鉴定和临床应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于分子成像的非小细胞肺癌EGFR在体分子分型研究

国家自然科学基金

0+阅读 · 2014年12月31日

智能化双靶向肿瘤光学/核素/MRI多模态分子探针的合成及其性能研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于分子靶向和多模融合的肝癌边界精准定位方法关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员