Multimodal large language models (MLLMs) have shown remarkable capabilities in multimodal perception and understanding tasks. However, their effectiveness in specialized domains, such as remote sensing and medical imaging, remains limited. A natural approach to domain adaptation is to inject domain knowledge through textual instructions, prompts, or auxiliary captions. Surprisingly, we find that such input-level domain knowledge injection yields little to no improvement on scientific multimodal tasks, even when the domain knowledge is explicitly provided. This observation suggests that current MLLMs fail to internalize domain-specific priors through language alone, and that domain knowledge must be integrated at the optimization level. Motivated by this insight, we propose a reinforcement fine-tuning framework that incorporates domain knowledge directly into the learning objective. Instead of treating domain knowledge as descriptive information, we encode it as domain-informed constraints and reward signals, shaping the model's behavior in the output space. Extensive experiments across multiple datasets in remote sensing and medical domains consistently demonstrate good performance gains, achieving state-of-the-art results on multimodal domain tasks. Our results highlight the necessity of optimization-level domain knowledge integration and reveal a fundamental limitation of textual domain conditioning in current MLLMs.


翻译:多模态大语言模型(MLLMs)在多模态感知与理解任务中展现出卓越的能力。然而,在遥感、医学影像等专业领域,其性能仍存在局限。一种自然的领域适应方法是通过文本指令、提示或辅助描述注入领域知识。令人意外的是,我们发现即使明确提供领域知识,此类输入级的领域知识注入在科学多模态任务上几乎无法带来性能提升。这一现象表明,当前MLLM无法仅通过语言内化领域特定的先验知识,领域知识必须在优化层面进行整合。基于此洞见,我们提出一种强化微调框架,将领域知识直接融入学习目标。不同于将领域知识视为描述性信息,我们将其编码为领域感知的约束条件与奖励信号,从而在输出空间塑造模型行为。在遥感与医学领域多个数据集上的大量实验一致证明了该方法带来的显著性能提升,在多模态领域任务上取得了最先进的结果。我们的研究凸显了优化级领域知识整合的必要性,并揭示了当前MLLM中文本领域条件化机制的根本性局限。

0
下载
关闭预览

相关内容

多模态大语言模型下游调优中“保持自我”的重要性
专知会员服务
17+阅读 · 2025年12月15日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
58+阅读 · 2024年5月28日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员