UniReason-Med: A Shared Grounded Reasoning Interface for 2D-to-3D Transfer in Medical VQA - 专知论文

会员服务 ·

0

接口 · 医学视觉问答 · 问答 · 监督 · 样本 ·

UniReason-Med: A Shared Grounded Reasoning Interface for 2D-to-3D Transfer in Medical VQA

翻译：UniReason-Med：面向医学视觉问答中二维到三维迁移的共享基础推理接口

Mengzhuo Chen,Yan Shu,Chi Liu,Hongming Piao,Xidong Wang,Derek Li,Bryan Dai

We study whether grounded reasoning supervision from abundant 2D medical images can improve 3D medical VQA when both input types are aligned through a common reasoning interface. We introduce UniReason-Med, a single-checkpoint framework that processes either a 2D image or a slice-serialized 3D volume at inference time, generating interleaved textual reasoning and localized visual evidence through shared box syntax, region-token injection, and a common grounded reasoning policy. To train this interface, we construct UniMed-CoT, a 220K instruction-tuning dataset with interleaved textual reasoning and grounded visual evidence, including 170K 2D and 50K 3D samples. Through supervised fine-tuning followed by outcome-level reinforcement learning, UniReason-Med learns to generate grounded reasoning traces without IoU/Dice-based localization rewards during RL. Data-mixture and component ablations show that joint 2D+3D grounded supervision substantially improves 3D reasoning over 3D-only training, while grounding and region-token injection consistently benefit both 2D and 3D tasks. These results suggest that a shared grounded reasoning interface can transfer reasoning structure from 2D images to slice-serialized volumetric medical understanding. The code and data are publicly available at https://github.com/IQuestLab/unireason-med.

翻译：我们研究了当输入类型通过公共推理接口对齐时，来自丰富二维医学图像的基于定位的推理监督能否提升三维医学视觉问答的性能。我们提出UniReason-Med，这是一个单检查点框架，在推理时可处理二维图像或切片序列化的三维体数据，通过共享框语法、区域令牌注入和公共基础推理策略生成交错文本推理与局部视觉证据。为训练该接口，我们构建了UniMed-CoT数据集，包含22万条指令微调样本，其中涵盖17万条二维样本与5万条三维样本，均具备交错文本推理与基础视觉证据。在监督微调后结合结果级强化学习，UniReason-Med学会了生成基础推理轨迹，而无需在强化学习阶段使用基于IoU/Dice的定位奖励。数据混合与模块消融实验表明，相比仅使用三维数据训练，二维与三维联合的定位监督能显著改善三维推理任务的表现；同时，定位机制与区域令牌注入对二维与三维任务均有持续增益。这些结果表明，共享基础推理接口可实现推理结构从二维图像向切片序列化三维体医学理解的有效迁移。代码与数据已开源至https://github.com/IQuestLab/unireason-med。

0

相关内容

用于三维医学影像理解的综合语言–图像预训练

用于三维医学影像理解的综合语言–图像预训练

专知会员服务

7+阅读 · 2025年11月5日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

专知会员服务

65+阅读 · 2023年5月21日

U-Net如何用在医学图像分割？德国亚琛工大等最新《医学图像分割》综述，详述六大类100多个算法

U-Net如何用在医学图像分割？德国亚琛工大等最新《医学图像分割》综述，详述六大类100多个算法

专知会员服务

52+阅读 · 2022年11月29日

浙大最新「深度学习弱目标检测定位」综述论文，13页pdf概述WSOD最新进展

浙大最新「深度学习弱目标检测定位」综述论文，13页pdf概述WSOD最新进展

专知会员服务

47+阅读 · 2021年5月30日

最新《3D医疗图像处理》综述论文，23页pdf，3D Deep Learning on Medical Images: A Review

最新《3D医疗图像处理》综述论文，23页pdf，3D Deep Learning on Medical Images: A Review

专知会员服务

60+阅读 · 2020年7月14日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

专知会员服务

45+阅读 · 2020年1月15日

【UIUC】基于知识图谱和语料库的协同推理:一个多智能体强化学习方法（Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agentReinforcement Learning Approach）

【UIUC】基于知识图谱和语料库的协同推理:一个多智能体强化学习方法（Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agentReinforcement Learning Approach）

专知会员服务

26+阅读 · 2019年12月7日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

GenomicAI

29+阅读 · 2022年5月4日

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

专知

23+阅读 · 2022年4月5日

DeepReg：开源深度学习医学图像配准工具包

DeepReg：开源深度学习医学图像配准工具包

专知

35+阅读 · 2020年8月29日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

云平台中可优化分析操作的海量医学图像存储管理技术

国家自然科学基金

0+阅读 · 2014年12月31日

MathVis-Fine: Aligning Visual Supervision with Necessity via Progressive Dependency-Guided Training for Multimodal Mathematical Reasoning

Arxiv

0+阅读 · 6月16日

Training LLMs with Reinforcement Learning over Digital Twin Representations for Reasoning-Intensive Surgical VideoQA

Arxiv

0+阅读 · 6月15日

Perceive, Interact, Reason: Building Tool-Augmented Visual Agents for Spatial Reasoning

Arxiv

0+阅读 · 6月11日

OpenMedReason: Scientific Reasoning Supervision for Medical Vision-Language Models

Arxiv

0+阅读 · 6月10日

UniPixie: Unified and Probabilistic 3D Physics Learning via Flow Matching

Arxiv

0+阅读 · 6月9日

XMedFusion: A Knowledge-Guided Multimodal Perception and Reasoning Framework for Autonomous Medical Systems

Arxiv

0+阅读 · 6月8日

UNIVID: Unified Vision-Language Model for Video Moderation

Arxiv

0+阅读 · 6月4日

UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning

Arxiv

0+阅读 · 5月12日

UniCorrn: Unified Correspondence Transformer Across 2D and 3D

Arxiv

0+阅读 · 5月5日

GraphOmni: A Comprehensive and Extensible Benchmark Framework for Large Language Models on Graph-theoretic Tasks

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

医学视觉问答

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

5+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

10+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

用于三维医学影像理解的综合语言–图像预训练

用于三维医学影像理解的综合语言–图像预训练

专知会员服务

7+阅读 · 2025年11月5日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

专知会员服务

65+阅读 · 2023年5月21日

U-Net如何用在医学图像分割？德国亚琛工大等最新《医学图像分割》综述，详述六大类100多个算法

U-Net如何用在医学图像分割？德国亚琛工大等最新《医学图像分割》综述，详述六大类100多个算法

专知会员服务

52+阅读 · 2022年11月29日

浙大最新「深度学习弱目标检测定位」综述论文，13页pdf概述WSOD最新进展

浙大最新「深度学习弱目标检测定位」综述论文，13页pdf概述WSOD最新进展

专知会员服务

47+阅读 · 2021年5月30日

最新《3D医疗图像处理》综述论文，23页pdf，3D Deep Learning on Medical Images: A Review

最新《3D医疗图像处理》综述论文，23页pdf，3D Deep Learning on Medical Images: A Review

专知会员服务

60+阅读 · 2020年7月14日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

专知会员服务

45+阅读 · 2020年1月15日

【UIUC】基于知识图谱和语料库的协同推理:一个多智能体强化学习方法（Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agentReinforcement Learning Approach）

【UIUC】基于知识图谱和语料库的协同推理:一个多智能体强化学习方法（Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agentReinforcement Learning Approach）

专知会员服务

26+阅读 · 2019年12月7日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

GenomicAI

29+阅读 · 2022年5月4日

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

专知

23+阅读 · 2022年4月5日

DeepReg：开源深度学习医学图像配准工具包

DeepReg：开源深度学习医学图像配准工具包

专知

35+阅读 · 2020年8月29日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

MathVis-Fine: Aligning Visual Supervision with Necessity via Progressive Dependency-Guided Training for Multimodal Mathematical Reasoning

Arxiv

0+阅读 · 6月16日

Training LLMs with Reinforcement Learning over Digital Twin Representations for Reasoning-Intensive Surgical VideoQA

Arxiv

0+阅读 · 6月15日

Perceive, Interact, Reason: Building Tool-Augmented Visual Agents for Spatial Reasoning

Arxiv

0+阅读 · 6月11日

OpenMedReason: Scientific Reasoning Supervision for Medical Vision-Language Models

Arxiv

0+阅读 · 6月10日

UniPixie: Unified and Probabilistic 3D Physics Learning via Flow Matching

Arxiv

0+阅读 · 6月9日

XMedFusion: A Knowledge-Guided Multimodal Perception and Reasoning Framework for Autonomous Medical Systems

Arxiv

0+阅读 · 6月8日

UNIVID: Unified Vision-Language Model for Video Moderation

Arxiv

0+阅读 · 6月4日

UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning

Arxiv

0+阅读 · 5月12日

UniCorrn: Unified Correspondence Transformer Across 2D and 3D

Arxiv

0+阅读 · 5月5日

GraphOmni: A Comprehensive and Extensible Benchmark Framework for Large Language Models on Graph-theoretic Tasks

Arxiv

0+阅读 · 3月25日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

云平台中可优化分析操作的海量医学图像存储管理技术

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员