Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations - 专知论文

会员服务 ·

0

对齐 · 表示 · 搜索 · 医学图像 · 识别 ·

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

翻译：组合式视觉-语言检索用于皮肤癌病例搜索：基于全局与局部表示的联合对齐

Yuheng Wang,Yuji Lin,Jiayue Cai,Z. Jane Wang,Tim K. Lee

Medical image retrieval aims to identify clinically relevant lesion cases to support diagnostic decision making, education, and quality control. In practice, retrieval queries often combine a reference lesion image with textual descriptors such as dermoscopic features. We study composed vision-language retrieval for skin cancer, where each query consists of an image to text pair and the database contains biopsy-confirmed, multi-class disease cases. We propose a transformer based framework that learns hierarchical composed query representations and performs joint global-local alignment between queries and candidate images. Local alignment aggregates discriminative regions via multiple spatial attention masks, while global alignment provides holistic semantic supervision. The final similarity is computed through a convex, domain-informed weighting that emphasizes clinically salient local evidence while preserving global consistency. Experiments on the public Derm7pt dataset demonstrate consistent improvements over state-of-the-art methods. The proposed framework enables efficient access to relevant medical records and supports practical clinical deployment.

翻译：医学图像检索旨在识别临床相关的病变病例，以支持诊断决策、医学教育与质量控制。实际操作中，检索查询常将参考病变图像与皮肤镜特征等文本描述符相结合。本研究面向皮肤癌的组合式视觉-语言检索，其中每个查询由图像-文本对构成，数据库包含经活检确诊的多类别疾病病例。我们提出一种基于Transformer的框架，该框架学习层次化组合查询表示，并在查询与候选图像间执行全局-局部联合对齐：局部对齐通过多重空间注意力掩膜聚合判别性区域，全局对齐则提供整体语义监督。最终相似度通过凸性、领域感知加权计算，在保留全局一致性的同时强调临床显著的局部证据。在公开的Derm7pt数据集上的实验表明，该方法相较于现有最优方法持续取得改进。所提框架实现了对相关医疗记录的高效访问，并支持实际临床部署。

0

相关内容

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

专知会员服务

7+阅读 · 2025年7月20日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

专知会员服务

13+阅读 · 2025年3月26日

组合图像检索的全面综述

组合图像检索的全面综述

专知会员服务

17+阅读 · 2025年3月2日

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

专知会员服务

64+阅读 · 2022年8月2日

《人工智能在医学影像中复杂视觉模式的检测、定性和分类中的应用：关于肺部和神经影像中的应用》哥大2022最新博士论文

《人工智能在医学影像中复杂视觉模式的检测、定性和分类中的应用：关于肺部和神经影像中的应用》哥大2022最新博士论文

专知会员服务

32+阅读 · 2022年5月16日

基于深度学习的医学影像分割研究综述

专知会员服务

50+阅读 · 2021年8月28日

最新《医学图像深度语义分割》综述论文

最新《医学图像深度语义分割》综述论文

专知会员服务

97+阅读 · 2020年6月7日

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

专知会员服务

40+阅读 · 2020年3月2日

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

专知会员服务

54+阅读 · 2019年11月16日

「深度学习医学图像关键点检测」最新2022研究综述

「深度学习医学图像关键点检测」最新2022研究综述

专知

16+阅读 · 2022年4月10日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

最全综述 | 医学图像处理

最全综述 | 医学图像处理

计算机视觉life

57+阅读 · 2019年6月15日

用手机检测皮肤癌

用手机检测皮肤癌

专知

12+阅读 · 2019年5月11日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

一种乳腺癌分子特异性手术导航成像方法

国家自然科学基金

1+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于诊疗一体化智能纳米探针的影像导航的肿瘤光热治疗研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向肿瘤诊断和治疗上转换光学一体化探针的构建与应用

国家自然科学基金

0+阅读 · 2014年12月31日

Interactive Multi-Turn Retrieval for Health Videos

Arxiv

0+阅读 · 5月2日

TEMA: Anchor the Image, Follow the Text for Multi-Modification Composed Image Retrieval

Arxiv

0+阅读 · 4月23日

Location-Aware Pretraining for Medical Difference Visual Question Answering

Arxiv

0+阅读 · 4月22日

Detecting Breast Carcinoma Metastasis on Whole-Slide Images by Partially Subsampled Multiple Instance Learning

Arxiv

0+阅读 · 4月19日

Learning Robust Visual Features in Computed Tomography Enables Efficient Transfer Learning for Clinical Tasks

Arxiv

0+阅读 · 4月5日

Analysis of Invasive Breast Cancer in Mammograms Using YOLO, Explainability, and Domain Adaptation

Arxiv

0+阅读 · 4月3日

SkinGenBench: Generative Model and Preprocessing Effects for Synthetic Dermoscopic Augmentation in Melanoma Diagnosis

Arxiv

0+阅读 · 4月2日

All-in-One Augmented Reality Guided Head and Neck Tumor Resection

Arxiv

0+阅读 · 3月31日

Retrieval-Reasoning Large Language Model-based Synthetic Clinical Trial Generation

Arxiv

0+阅读 · 3月25日

HiPath: Hierarchical Vision-Language Alignment for Structured Pathology Report Prediction

Arxiv

0+阅读 · 3月20日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

19+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

专知会员服务

7+阅读 · 2025年7月20日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

专知会员服务

13+阅读 · 2025年3月26日

组合图像检索的全面综述

组合图像检索的全面综述

专知会员服务

17+阅读 · 2025年3月2日

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

专知会员服务

64+阅读 · 2022年8月2日

《人工智能在医学影像中复杂视觉模式的检测、定性和分类中的应用：关于肺部和神经影像中的应用》哥大2022最新博士论文

《人工智能在医学影像中复杂视觉模式的检测、定性和分类中的应用：关于肺部和神经影像中的应用》哥大2022最新博士论文

专知会员服务

32+阅读 · 2022年5月16日

基于深度学习的医学影像分割研究综述

专知会员服务

50+阅读 · 2021年8月28日

最新《医学图像深度语义分割》综述论文

最新《医学图像深度语义分割》综述论文

专知会员服务

97+阅读 · 2020年6月7日

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

专知会员服务

40+阅读 · 2020年3月2日

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

专知会员服务

54+阅读 · 2019年11月16日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

「深度学习医学图像关键点检测」最新2022研究综述

「深度学习医学图像关键点检测」最新2022研究综述

专知

16+阅读 · 2022年4月10日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

最全综述 | 医学图像处理

最全综述 | 医学图像处理

计算机视觉life

57+阅读 · 2019年6月15日

用手机检测皮肤癌

用手机检测皮肤癌

专知

12+阅读 · 2019年5月11日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

相关论文

Interactive Multi-Turn Retrieval for Health Videos

Arxiv

0+阅读 · 5月2日

TEMA: Anchor the Image, Follow the Text for Multi-Modification Composed Image Retrieval

Arxiv

0+阅读 · 4月23日

Location-Aware Pretraining for Medical Difference Visual Question Answering

Arxiv

0+阅读 · 4月22日

Detecting Breast Carcinoma Metastasis on Whole-Slide Images by Partially Subsampled Multiple Instance Learning

Arxiv

0+阅读 · 4月19日

Learning Robust Visual Features in Computed Tomography Enables Efficient Transfer Learning for Clinical Tasks

Arxiv

0+阅读 · 4月5日

Analysis of Invasive Breast Cancer in Mammograms Using YOLO, Explainability, and Domain Adaptation

Arxiv

0+阅读 · 4月3日

SkinGenBench: Generative Model and Preprocessing Effects for Synthetic Dermoscopic Augmentation in Melanoma Diagnosis

Arxiv

0+阅读 · 4月2日

All-in-One Augmented Reality Guided Head and Neck Tumor Resection

Arxiv

0+阅读 · 3月31日

Retrieval-Reasoning Large Language Model-based Synthetic Clinical Trial Generation

Arxiv

0+阅读 · 3月25日

HiPath: Hierarchical Vision-Language Alignment for Structured Pathology Report Prediction

Arxiv

0+阅读 · 3月20日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

一种乳腺癌分子特异性手术导航成像方法

国家自然科学基金

1+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于诊疗一体化智能纳米探针的影像导航的肿瘤光热治疗研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向肿瘤诊断和治疗上转换光学一体化探针的构建与应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员