Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where patients often express complex medical queries in native Indic languages and rely on multimodal inputs such as medical images. Existing English-centric MLLMs struggle to support such use cases, limiting equitable access to AI-driven healthcare assistance. To address this challenge, we introduce ArogyaBodha, a large-scale multilingual multimodal medical question-answer dataset constructed from eight heterogeneous sources, covering 31 body systems, six imaging modalities, and 21 clinical domains across English and seven major Indian languages. We further propose ArogyaSutra, an actor-critic-based multi-agent framework that integrates tool grounding with dual-memory mechanisms for step-wise, reasoning-aware decision making, and uses stored actor-critic simulation trajectories for distillation. Experiments show that our dataset and framework improve multilingual medical reasoning accuracy across all Indic languages, with ablations validating the contribution of each component. The source code and dataset are available at: https://iitp-cse.github.io/ ArogyaSutra/


翻译:摘要:多模态大语言模型(MLLMs)在通用领域展现了有前景的推理能力,但在医疗等专业场景中,尤其是在多语言和低资源环境下,其性能仍受局限。这一差距在印度农村等地区尤为关键——患者常以本土印度语言表达复杂医疗问题,并依赖医疗影像等多模态输入。现有以英语为中心的MLLMs难以支持此类应用场景,限制了人工智能辅助医疗的公平可及性。为应对这一挑战,我们构建了ArogyaBodha——一个大规模多语言多模态医学问答数据集,覆盖来自八类异构数据源的31个人体系统、六种成像模态及21个临床领域,涵盖英语和七种主要印度语言。进一步提出ArogyaSutra——一种基于行动者-评论家的多智能体框架,该框架将工具接地与双记忆机制相结合以实现逐步推理感知决策,并利用存储的行动者-评论家仿真轨迹进行知识蒸馏。实验表明,我们的数据集和框架能提升所有印度语言的医学推理准确率,消融实验验证了各模块的贡献。源代码与数据集已开源:https://iitp-cse.github.io/ArogyaSutra/

0
下载
关闭预览

相关内容

多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
多模态大型语言模型:综述
专知会员服务
47+阅读 · 2025年6月14日
面向医学的多模态大型语言模型:全面综述
专知会员服务
25+阅读 · 2025年5月1日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
【AI与医学】多模态机器学习精准医疗健康
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
25+阅读 · 2023年6月23日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
多模态大型语言模型:综述
专知会员服务
47+阅读 · 2025年6月14日
面向医学的多模态大型语言模型:全面综述
专知会员服务
25+阅读 · 2025年5月1日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员