CTest-Metric：评估CT报告生成指标临床有效性的统一框架 (CTest-Metric: A Unified Framework to Assess Clinical Validity of Metrics for CT Report Generation) - 专知论文

会员服务 ·

0

报告生成 · 错误注入 · 报告 · 有效性 · 得分 ·

CTest-Metric: A Unified Framework to Assess Clinical Validity of Metrics for CT Report Generation

翻译：CTest-Metric：评估CT报告生成指标临床有效性的统一框架

Vanshali Sharma,Andrea Mia Bejar,Gorkem Durak,Ulas Bagci

from arxiv, Accepted at ISBI 2026

In the generative AI era, where even critical medical tasks are increasingly automated, radiology report generation (RRG) continues to rely on suboptimal metrics for quality assessment. Developing domain-specific metrics has therefore been an active area of research, yet it remains challenging due to the lack of a unified, well-defined framework to assess their robustness and applicability in clinical contexts. To address this, we present CTest-Metric, a first unified metric assessment framework with three modules determining the clinical feasibility of metrics for CT RRG. The modules test: (i) Writing Style Generalizability (WSG) via LLM-based rephrasing; (ii) Synthetic Error Injection (SEI) at graded severities; and (iii) Metrics-vs-Expert correlation (MvE) using clinician ratings on 175 "disagreement" cases. Eight widely used metrics (BLEU, ROUGE, METEOR, BERTScore-F1, F1-RadGraph, RaTEScore, GREEN Score, CRG) are studied across seven LLMs built on a CT-CLIP encoder. Using our novel framework, we found that lexical NLG metrics are highly sensitive to stylistic variations; GREEN Score aligns best with expert judgments (Spearman~0.70), while CRG shows negative correlation; and BERTScore-F1 is least sensitive to factual error injection. We will release the framework, code, and allowable portion of the anonymized evaluation data (rephrased/error-injected CT reports), to facilitate reproducible benchmarking and future metric development.

翻译：在生成式人工智能时代，即使关键医疗任务日益自动化，放射学报告生成（RRG）的质量评估仍依赖于次优的指标。因此，开发领域专用指标一直是研究热点，但由于缺乏统一、明确的框架来评估其在临床环境中的稳健性和适用性，这仍然具有挑战性。为此，我们提出了CTest-Metric，这是首个统一的指标评估框架，包含三个模块，用于确定CT RRG指标的临床可行性。这些模块测试：（i）通过基于LLM的改写评估写作风格泛化性（WSG）；（ii）在分级严重程度下进行合成错误注入（SEI）；以及（iii）利用临床医生对175个“分歧”病例的评分，评估指标与专家相关性（MvE）。我们在基于CT-CLIP编码器构建的七个LLM上，研究了八个广泛使用的指标（BLEU、ROUGE、METEOR、BERTScore-F1、F1-RadGraph、RaTEScore、GREEN Score、CRG）。使用我们的新框架，我们发现词汇NLG指标对风格变化高度敏感；GREEN Score与专家判断最一致（Spearman~0.70），而CRG显示出负相关；BERTScore-F1对事实错误注入最不敏感。我们将发布该框架、代码以及允许公开的匿名评估数据（改写/错误注入的CT报告）部分，以促进可复现的基准测试和未来指标开发。

0

相关内容

报告生成

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

医学图像描述综述：编码、解码及最新进展

医学图像描述综述：编码、解码及最新进展

专知会员服务

20+阅读 · 2023年7月31日

【斯坦福博士论文】面向医学图像分析的标签高效机器学习，214页pdf

【斯坦福博士论文】面向医学图像分析的标签高效机器学习，214页pdf

专知会员服务

57+阅读 · 2023年6月9日

【CVPR2023】基于动态图增强对比学习的胸部X光报告生成

【CVPR2023】基于动态图增强对比学习的胸部X光报告生成

专知会员服务

21+阅读 · 2023年3月23日

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

专知会员服务

42+阅读 · 2022年9月22日

Chem. Sci.｜MGraphDTA：基于深层多尺度图神经网络预测药物-靶标亲和力

Chem. Sci.｜MGraphDTA：基于深层多尺度图神经网络预测药物-靶标亲和力

专知会员服务

23+阅读 · 2022年7月22日

J. Med. Chem. | RELATION: 一种基于靶标结构的深度学习全新药物设计模型

J. Med. Chem. | RELATION: 一种基于靶标结构的深度学习全新药物设计模型

专知会员服务

11+阅读 · 2022年6月23日

【牛津大学】电子医疗记录的生成式对抗网络:应用、评估措施和数据来源综述，A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

【牛津大学】电子医疗记录的生成式对抗网络:应用、评估措施和数据来源综述，A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

专知会员服务

24+阅读 · 2022年3月15日

高效医疗图像分析的统一表示

高效医疗图像分析的统一表示

专知会员服务

36+阅读 · 2020年6月23日

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

专知会员服务

33+阅读 · 2020年5月2日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

【前沿】自动从CT医疗影像中生成诊断报告，卡内基梅隆大学CMU邢波教授团队最新基于深度学习的医疗影像研究成果

【前沿】自动从CT医疗影像中生成诊断报告，卡内基梅隆大学CMU邢波教授团队最新基于深度学习的医疗影像研究成果

专知

18+阅读 · 2017年11月24日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

全球肝脏肿瘤病灶区CT图像分割挑战大赛，联想E-Health夺得冠军

全球肝脏肿瘤病灶区CT图像分割挑战大赛，联想E-Health夺得冠军

新智元

10+阅读 · 2017年9月22日

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

菜鸟的机器学习

28+阅读 · 2017年7月31日

基于低辐射双能谱CT实现多种基础物质分解的重建算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

骨靶向性近红外荧光诊断试剂的设计、合成与活性评价

国家自然科学基金

0+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

靶向肿瘤相关巨噬细胞给药系统的构建和药效评价

国家自然科学基金

0+阅读 · 2015年12月31日

上市后药品不良反应信号检测中双稳健方法的构建

国家自然科学基金

0+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

基于纳米胶束的肿瘤治疗和成像一体化的多功能药物传递系统的构建与评价

国家自然科学基金

0+阅读 · 2015年12月31日

多靶蛋白芯片与定量指纹图谱相融合的中药质量评价方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

光耦合显微CT系统优化理论与技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

Tie1调控内皮细胞Ang/Tie通路的结构基础及靶向Tie1的多肽设计

国家自然科学基金

0+阅读 · 2015年12月31日

CT-Bench: A Benchmark for Multimodal Lesion Understanding in Computed Tomography

Arxiv

0+阅读 · 2月19日

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

Arxiv

0+阅读 · 2月19日

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

Arxiv

0+阅读 · 2月18日

BTReport: A Framework for Brain Tumor Radiology Report Generation with Clinically Relevant Features

Arxiv

0+阅读 · 2月17日

Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation

Arxiv

0+阅读 · 2月17日

CT-Bench: A Benchmark for Multimodal Lesion Understanding in Computed Tomography

Arxiv

0+阅读 · 2月16日

MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction

Arxiv

0+阅读 · 2月16日

CSEval: A Framework for Evaluating Clinical Semantics in Text-to-Image Generation

Arxiv

0+阅读 · 2月12日

MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine

Arxiv

0+阅读 · 2月11日

MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine

Arxiv

0+阅读 · 1月23日

VIP会员

文章信息

相关主题

相关VIP内容

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

医学图像描述综述：编码、解码及最新进展

医学图像描述综述：编码、解码及最新进展

专知会员服务

20+阅读 · 2023年7月31日

【斯坦福博士论文】面向医学图像分析的标签高效机器学习，214页pdf

【斯坦福博士论文】面向医学图像分析的标签高效机器学习，214页pdf

专知会员服务

57+阅读 · 2023年6月9日

【CVPR2023】基于动态图增强对比学习的胸部X光报告生成

【CVPR2023】基于动态图增强对比学习的胸部X光报告生成

专知会员服务

21+阅读 · 2023年3月23日

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

专知会员服务

42+阅读 · 2022年9月22日

Chem. Sci.｜MGraphDTA：基于深层多尺度图神经网络预测药物-靶标亲和力

Chem. Sci.｜MGraphDTA：基于深层多尺度图神经网络预测药物-靶标亲和力

专知会员服务

23+阅读 · 2022年7月22日

J. Med. Chem. | RELATION: 一种基于靶标结构的深度学习全新药物设计模型

J. Med. Chem. | RELATION: 一种基于靶标结构的深度学习全新药物设计模型

专知会员服务

11+阅读 · 2022年6月23日

【牛津大学】电子医疗记录的生成式对抗网络:应用、评估措施和数据来源综述，A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

【牛津大学】电子医疗记录的生成式对抗网络:应用、评估措施和数据来源综述，A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

专知会员服务

24+阅读 · 2022年3月15日

高效医疗图像分析的统一表示

高效医疗图像分析的统一表示

专知会员服务

36+阅读 · 2020年6月23日

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

专知会员服务

33+阅读 · 2020年5月2日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

【前沿】自动从CT医疗影像中生成诊断报告，卡内基梅隆大学CMU邢波教授团队最新基于深度学习的医疗影像研究成果

【前沿】自动从CT医疗影像中生成诊断报告，卡内基梅隆大学CMU邢波教授团队最新基于深度学习的医疗影像研究成果

专知

18+阅读 · 2017年11月24日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

全球肝脏肿瘤病灶区CT图像分割挑战大赛，联想E-Health夺得冠军

全球肝脏肿瘤病灶区CT图像分割挑战大赛，联想E-Health夺得冠军

新智元

10+阅读 · 2017年9月22日

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

菜鸟的机器学习

28+阅读 · 2017年7月31日

相关论文

CT-Bench: A Benchmark for Multimodal Lesion Understanding in Computed Tomography

Arxiv

0+阅读 · 2月19日

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

Arxiv

0+阅读 · 2月19日

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

Arxiv

0+阅读 · 2月18日

BTReport: A Framework for Brain Tumor Radiology Report Generation with Clinically Relevant Features

Arxiv

0+阅读 · 2月17日

Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation

Arxiv

0+阅读 · 2月17日

CT-Bench: A Benchmark for Multimodal Lesion Understanding in Computed Tomography

Arxiv

0+阅读 · 2月16日

MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction

Arxiv

0+阅读 · 2月16日

CSEval: A Framework for Evaluating Clinical Semantics in Text-to-Image Generation

Arxiv

0+阅读 · 2月12日

MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine

Arxiv

0+阅读 · 2月11日

MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine

Arxiv

0+阅读 · 1月23日

相关基金

基于低辐射双能谱CT实现多种基础物质分解的重建算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

骨靶向性近红外荧光诊断试剂的设计、合成与活性评价

国家自然科学基金

0+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

靶向肿瘤相关巨噬细胞给药系统的构建和药效评价

国家自然科学基金

0+阅读 · 2015年12月31日

上市后药品不良反应信号检测中双稳健方法的构建

国家自然科学基金

0+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

基于纳米胶束的肿瘤治疗和成像一体化的多功能药物传递系统的构建与评价

国家自然科学基金

0+阅读 · 2015年12月31日

多靶蛋白芯片与定量指纹图谱相融合的中药质量评价方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

光耦合显微CT系统优化理论与技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

Tie1调控内皮细胞Ang/Tie通路的结构基础及靶向Tie1的多肽设计

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员