Multimodal Large Language Models (MLLMs) have achieved remarkable success in instruction-following tasks by integrating pretrained visual encoders with large language models (LLMs). However, existing approaches often struggle with fine-grained visual grounding due to semantic entanglement in visual patch representations, where individual patches blend multiple distinct visual elements, making it difficult for models to focus on instruction-relevant details. To address this challenge, we propose MoDA (Modulation Adapter), a lightweight module that enhances visual grounding through instruction-guided channel-wise modulation. Unlike token-level methods such as Q-Former that perform additive feature selection, MoDA operates at the channel level through multiplicative modulation on already-aligned features, enabling fine-grained control over which embedding dimensions are relevant for each instruction. Following the standard LLaVA training protocol, MoDA applies cross-attention between language instructions and pre-aligned visual features, generating dynamic modulation masks without architectural modifications or additional supervision. We evaluate MoDA across 12 benchmarks spanning visual question answering, vision-centric reasoning, and hallucination detection, including recent 2024 benchmarks (MMVP, CV-Bench, MMStar, RealWorldQA), on three distinct MLLM architectures: LLaVA-1.5, LLaVA-MoRE (2025), and Qwen3-VL (2025). MoDA delivers consistent gains across all three families, with +12.0 points on MMVP for the LLaVA-1.5 family and +4.8 points on ScienceQA for the LLaVA-MoRE family, and +4.9 ScienceQA, +4.1 RealWorldQA, and +3.8 GQA on Qwen3-VL, confirming that the gains generalize beyond CLIP-based encoders with minimal overhead (<1% FLOPs). Code is available at https://github.com/waybarrios/MoDA.


翻译:多模态大语言模型通过将预训练视觉编码器与大语言模型相结合,在指令跟随任务中取得了显著成功。然而,现有方法常因视觉块表示中的语义纠缠问题而难以实现细粒度视觉定位——单个视觉块混合多种不同视觉元素,导致模型难以聚焦于指令相关的细节。为解决该挑战,我们提出MoDA(调制适配器),一种通过指令引导的通道级调制增强视觉定位能力的轻量级模块。与Q-Former等执行加性特征选择的令牌级方法不同,MoDA在通道层面对已对齐特征执行乘性调制,从而实现对每个指令相关嵌入维度的细粒度控制。遵循标准LLaVA训练协议,MoDA将语言指令与预对齐的视觉特征进行交叉注意力计算,无需架构修改或额外监督即可生成动态调制掩码。我们在涵盖视觉问答、视觉中心推理和幻觉检测的12个基准测试(包括近期2024年基准MMVP、CV-Bench、MMStar、RealWorldQA)上,对三种不同MLLM架构(LLaVA-1.5、LLaVA-MoRE(2025版)及Qwen3-VL(2025版))进行评估。MoDA在所有三大架构系列中均取得一致性增益:在LLaVA-1.5系列的MMVP上提升+12.0个百分点,在LLaVA-MoRE系列的ScienceQA上提升+4.8个百分点,在Qwen3-VL系列上ScienceQA、RealWorldQA和GQA分别提升+4.9、+4.1和+3.8个百分点,证实该增益可泛化至CLIP编码器之外,且计算开销极小(<1% FLOPs)。代码开源地址:https://github.com/waybarrios/MoDA。

0
下载
关闭预览

相关内容

大语言模型在规划与调度问题上的应用
专知会员服务
53+阅读 · 2025年1月12日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
《通用多模态模型的视觉指令微调》综述
专知会员服务
40+阅读 · 2023年12月29日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
MIMIC-IT:多模态上下文指令调优
专知会员服务
40+阅读 · 2023年6月11日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员