iTRIALSPACE: Programmable Virtual Lesion Trials for Controlled Evaluation of Lung CT Models - 专知论文

会员服务 ·

0

试验 · 可控 · 可编程 · 编程 · 基准 ·

iTRIALSPACE: Programmable Virtual Lesion Trials for Controlled Evaluation of Lung CT Models

翻译：iTRIALSPACE：用于肺CT模型可控评估的可编程虚拟病灶试验

Fakrul Islam Tushar,Umme Hafsa Momy,Joseph Y. Lo,Geoffrey D. Rubin

from arxiv, 11 pages, 13 figures, 13 tables

We introduce iTRIALSPACE, a programmable evaluation framework for controlled assessment of lung CT models. Standard benchmarks are static retrospective collections that entangle lesion size, lobe prevalence, anatomy, and acquisition context, making it difficult to determine what structurally drives model accuracy. iTRIALSPACE addresses this limitation by composing real clinical CTs and lesion profiles into controlled virtual lesion trials through a four-stage pipeline: multidataset nodule profiling, explicit trial specification, anatomy-aware mask insertion, and ControlNet-conditioned CT synthesis. The framework is built on a unified 54-attribute nodule-profile dataset spanning 13,140 annotated nodules from seven public CT sources and instantiated as 13 trial modes. We evaluate iTRIALSPACE in a 55,469-sample Virtual Lesion Study spanning three medical VLMs, four spatialguidance conditions, and three clinical tasks. Across all 13 modes, the synthetic substrate remains within the real-to-real FID baseline, and synthetic performance rankings transfer strongly to real clinical data ($ρ$ = 0.93, p < 10$^{-15}$). Controlled trial modes expose findings unavailable to fixed-distribution benchmarks, including shortcut-driven size prediction collapse under lobe-equalized sampling and hostto-donor variance ratios of 8.9x and 3.3x in twin-cross analysis. These results position iTRIALSPACE as an auditable evaluation infrastructure for controlled, falsifiable testing beyond static retrospective benchmarks.

翻译：我们提出iTRIALSPACE，这是一个用于肺CT模型可控评估的可编程评估框架。标准基准评测采用静态回顾性数据集，其混杂了病灶大小、肺叶分布、解剖结构和采集背景等因素，导致难以确定模型准确性的结构性驱动因素。iTRIALSPACE通过四阶段流水线（多数据集结节特征提取、显式试验规范、解剖感知掩膜插入以及ControlNet条件CT合成）将临床真实CT与病灶特征组合为受控虚拟病灶试验，从而解决了这一局限。该框架基于包含来自七个公开CT源的13,140个标注结节的统一54属性结节特征数据集构建，并实例化为13种试验模式。我们在涵盖三种医学视觉语言模型、四种空间引导条件和三项临床任务的55,469样本虚拟病灶研究中评估了iTRIALSPACE。在所有13种模式下，合成基底均保持在真实-真实FID基线范围内，且合成性能排序与真实临床数据高度相关（ρ=0.93，p<10^{-15}）。受控试验模式揭示了固定分布基准无法发现的现象，包括在肺叶均衡采样下出现的捷径驱动型尺寸预测崩溃，以及双交叉分析中宿主-供体方差比达到8.9倍和3.3倍。这些结果表明iTRIALSPACE可作为超越静态回顾性基准、支持可控且可证伪测试的可审计评估基础设施。

0

相关内容

视觉Transformer预训练模型的胸腔X线影像多标签分类

视觉Transformer预训练模型的胸腔X线影像多标签分类

专知会员服务

14+阅读 · 2022年7月29日

《用于胸部 X 射线自动肺部疾病分析的深度学习》汉堡科技大学博士论文

《用于胸部 X 射线自动肺部疾病分析的深度学习》汉堡科技大学博士论文

专知会员服务

35+阅读 · 2022年4月17日

肺部影像解剖结构分割数据集及应用

专知会员服务

28+阅读 · 2021年10月6日

SIGIR2021 | 基于特征交互学习的门控增强多任务神经网络用于CTR预测

专知会员服务

10+阅读 · 2021年9月10日

CT影像肺结节分割研究进展

专知会员服务

37+阅读 · 2021年4月23日

【滑铁卢大学】新冠肺炎网络COVID-Net:一种定制的深卷积神经网络设计，用于从胸片图像中检测COVID-19

【滑铁卢大学】新冠肺炎网络COVID-Net:一种定制的深卷积神经网络设计，用于从胸片图像中检测COVID-19

专知会员服务

35+阅读 · 2020年3月25日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

专知会员服务

25+阅读 · 2019年11月16日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

【推荐系统/计算广告/机器学习/CTR预估资料汇总】

【推荐系统/计算广告/机器学习/CTR预估资料汇总】

专知会员服务

88+阅读 · 2019年10月21日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

CTR预估专栏 | Facebook经典模型LR+GBDT理论与实践

CTR预估专栏 | Facebook经典模型LR+GBDT理论与实践

AI前线

14+阅读 · 2018年8月3日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

【前沿】自动从CT医疗影像中生成诊断报告，卡内基梅隆大学CMU邢波教授团队最新基于深度学习的医疗影像研究成果

【前沿】自动从CT医疗影像中生成诊断报告，卡内基梅隆大学CMU邢波教授团队最新基于深度学习的医疗影像研究成果

专知

18+阅读 · 2017年11月24日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

全球肝脏肿瘤病灶区CT图像分割挑战大赛，联想E-Health夺得冠军

全球肝脏肿瘤病灶区CT图像分割挑战大赛，联想E-Health夺得冠军

新智元

10+阅读 · 2017年9月22日

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

菜鸟的机器学习

28+阅读 · 2017年7月31日

基于低辐射双能谱CT实现多种基础物质分解的重建算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向肺癌临床辅助诊疗决策的多模态数据融合分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

分子层次上肺癌子型标记物识别的计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

应用质谱成像技术原位表征肺癌组织区域的巨噬细胞免疫特性

国家自然科学基金

0+阅读 · 2015年12月31日

一种乳腺癌分子特异性手术导航成像方法

国家自然科学基金

1+阅读 · 2015年12月31日

3D纳米纤维支架作为乳腺癌循环肿瘤细胞捕获/鉴定装置的制备及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于分子成像的非小细胞肺癌EGFR在体分子分型研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

AIPatient Arena: EHR-grounded evaluation of large language models in end-to-end clinical consultation workflows

Arxiv

0+阅读 · 6月16日

LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control

Arxiv

0+阅读 · 6月15日

Trusting Right Predictions for Wrong Reasons: A LIME Based Analysis of Deep Learning Interpretability in Lung Cancer Diagnosis

Arxiv

0+阅读 · 6月14日

ShapeBench: A Scalable Benchmark and Diagnostic Suite for Standardized Evaluation in Aerodynamic Shape Optimization

Arxiv

0+阅读 · 6月10日

Training Set Augmentation and Biology-Aware Harmonization Improve Radiomic Models for Lung Cancer Prediction in Indeterminate Nodules

Arxiv

0+阅读 · 6月9日

Clinically Grounded Privacy Evaluation of Medical LMs

Arxiv

0+阅读 · 6月8日

CTIConnect: A Benchmark for Retrieval-Augmented LLMs over Heterogeneous Cyber Threat Intelligence

Arxiv

0+阅读 · 6月3日

SPECTRA: Synthetic IR Test Collections with Relevance Oracles and Controlled Distractor Diagnostics

Arxiv

0+阅读 · 5月29日

AssayBench: An Assay-Level Virtual Cell Benchmark for LLMs and Agents

Arxiv

0+阅读 · 5月11日

ISAAC: Auditing Causal Reasoning in Deep Models for Drug-Target Interaction

Arxiv

0+阅读 · 5月3日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 今天15:26

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

0+阅读 · 今天15:19

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

视觉Transformer预训练模型的胸腔X线影像多标签分类

视觉Transformer预训练模型的胸腔X线影像多标签分类

专知会员服务

14+阅读 · 2022年7月29日

《用于胸部 X 射线自动肺部疾病分析的深度学习》汉堡科技大学博士论文

《用于胸部 X 射线自动肺部疾病分析的深度学习》汉堡科技大学博士论文

专知会员服务

35+阅读 · 2022年4月17日

肺部影像解剖结构分割数据集及应用

专知会员服务

28+阅读 · 2021年10月6日

SIGIR2021 | 基于特征交互学习的门控增强多任务神经网络用于CTR预测

专知会员服务

10+阅读 · 2021年9月10日

CT影像肺结节分割研究进展

专知会员服务

37+阅读 · 2021年4月23日

【滑铁卢大学】新冠肺炎网络COVID-Net:一种定制的深卷积神经网络设计，用于从胸片图像中检测COVID-19

【滑铁卢大学】新冠肺炎网络COVID-Net:一种定制的深卷积神经网络设计，用于从胸片图像中检测COVID-19

专知会员服务

35+阅读 · 2020年3月25日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

专知会员服务

25+阅读 · 2019年11月16日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

【推荐系统/计算广告/机器学习/CTR预估资料汇总】

【推荐系统/计算广告/机器学习/CTR预估资料汇总】

专知会员服务

88+阅读 · 2019年10月21日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

CTR预估专栏 | Facebook经典模型LR+GBDT理论与实践

CTR预估专栏 | Facebook经典模型LR+GBDT理论与实践

AI前线

14+阅读 · 2018年8月3日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

【前沿】自动从CT医疗影像中生成诊断报告，卡内基梅隆大学CMU邢波教授团队最新基于深度学习的医疗影像研究成果

【前沿】自动从CT医疗影像中生成诊断报告，卡内基梅隆大学CMU邢波教授团队最新基于深度学习的医疗影像研究成果

专知

18+阅读 · 2017年11月24日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

全球肝脏肿瘤病灶区CT图像分割挑战大赛，联想E-Health夺得冠军

全球肝脏肿瘤病灶区CT图像分割挑战大赛，联想E-Health夺得冠军

新智元

10+阅读 · 2017年9月22日

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

菜鸟的机器学习

28+阅读 · 2017年7月31日

相关论文

AIPatient Arena: EHR-grounded evaluation of large language models in end-to-end clinical consultation workflows

Arxiv

0+阅读 · 6月16日

LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control

Arxiv

0+阅读 · 6月15日

Trusting Right Predictions for Wrong Reasons: A LIME Based Analysis of Deep Learning Interpretability in Lung Cancer Diagnosis

Arxiv

0+阅读 · 6月14日

ShapeBench: A Scalable Benchmark and Diagnostic Suite for Standardized Evaluation in Aerodynamic Shape Optimization

Arxiv

0+阅读 · 6月10日

Training Set Augmentation and Biology-Aware Harmonization Improve Radiomic Models for Lung Cancer Prediction in Indeterminate Nodules

Arxiv

0+阅读 · 6月9日

Clinically Grounded Privacy Evaluation of Medical LMs

Arxiv

0+阅读 · 6月8日

CTIConnect: A Benchmark for Retrieval-Augmented LLMs over Heterogeneous Cyber Threat Intelligence

Arxiv

0+阅读 · 6月3日

SPECTRA: Synthetic IR Test Collections with Relevance Oracles and Controlled Distractor Diagnostics

Arxiv

0+阅读 · 5月29日

AssayBench: An Assay-Level Virtual Cell Benchmark for LLMs and Agents

Arxiv

0+阅读 · 5月11日

ISAAC: Auditing Causal Reasoning in Deep Models for Drug-Target Interaction

Arxiv

0+阅读 · 5月3日

相关基金

基于低辐射双能谱CT实现多种基础物质分解的重建算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向肺癌临床辅助诊疗决策的多模态数据融合分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

分子层次上肺癌子型标记物识别的计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

应用质谱成像技术原位表征肺癌组织区域的巨噬细胞免疫特性

国家自然科学基金

0+阅读 · 2015年12月31日

一种乳腺癌分子特异性手术导航成像方法

国家自然科学基金

1+阅读 · 2015年12月31日

3D纳米纤维支架作为乳腺癌循环肿瘤细胞捕获/鉴定装置的制备及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于分子成像的非小细胞肺癌EGFR在体分子分型研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员