Grounded Multimodal Named Entity Recognition (GMNER) aims to extract text-based entities, assign them semantic categories, and ground them to corresponding visual regions. In this work, we explore the potential of Multimodal Large Language Models (MLLMs) to perform GMNER in an end-to-end manner, moving beyond their typical role as auxiliary tools within cascaded pipelines. Crucially, our investigation reveals a fundamental challenge: MLLMs exhibit $\textbf{modality bias}$, including visual bias and textual bias, which stems from their tendency to take unimodal shortcuts rather than rigorous cross-modal verification. To address this, we propose Modality-aware Consistency Reasoning ($\textbf{MCR}$), which enforces structured cross-modal reasoning through Multi-style Reasoning Schema Injection (MRSI) and Constraint-guided Verifiable Optimization (CVO). MRSI transforms abstract constraints into executable reasoning chains, while CVO empowers the model to dynamically align its reasoning trajectories with Group Relative Policy Optimization (GRPO). Experiments on GMNER and visual grounding tasks demonstrate that MCR effectively mitigates modality bias and achieves superior performance compared to existing baselines.


翻译:接地多模态命名实体识别(GMNER)旨在提取基于文本的实体,为其分配语义类别,并将其接地到相应的视觉区域。在本工作中,我们探索了多模态大语言模型(MLLM)以端到端方式执行GMNER的潜力,超越其在级联管道中作为辅助工具的典型角色。关键的是,我们的研究揭示了一个根本性挑战:MLLM表现出$\textbf{模态偏差}$,包括视觉偏差和文本偏差,这源于其倾向于采取单模态捷径而非严格的跨模态验证。为解决此问题,我们提出了模态感知一致性推理($\textbf{MCR}$),该方法通过多风格推理模式注入(MRSI)和约束引导可验证优化(CVO)来强制执行结构化的跨模态推理。MRSI将抽象约束转化为可执行的推理链,而CVO则使模型能够通过组相对策略优化(GRPO)动态对齐其推理轨迹。在GMNER和视觉接地任务上的实验表明,与现有基线相比,MCR有效缓解了模态偏差并实现了更优的性能。

0
下载
关闭预览

相关内容

TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
【中科院】命名实体识别技术综述
专知
16+阅读 · 2020年4月21日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
一文读懂命名实体识别
AINLP
31+阅读 · 2019年4月23日
专栏 | 用神经推理来帮助命名实体识别
机器之心
15+阅读 · 2018年11月8日
基于Lattice LSTM的命名实体识别
微信AI
48+阅读 · 2018年10月19日
命名实体识别从数据集到算法实现
专知
55+阅读 · 2018年6月28日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
相关基金
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员