Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition - 专知论文

会员服务 ·

0

模态 · 偏差 · 跨模态 · 实体 · 单模 ·

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

翻译：超越单模态捷径：MLLM作为跨模态推理器用于接地命名实体识别

Jinlong Ma,Yu Zhang,Xuefeng Bai,Kehai Chen,Yuwei Wang,Zeming Liu,Jun Yu,Min Zhang

from arxiv, GMNER

Grounded Multimodal Named Entity Recognition (GMNER) aims to extract text-based entities, assign them semantic categories, and ground them to corresponding visual regions. In this work, we explore the potential of Multimodal Large Language Models (MLLMs) to perform GMNER in an end-to-end manner, moving beyond their typical role as auxiliary tools within cascaded pipelines. Crucially, our investigation reveals a fundamental challenge: MLLMs exhibit $\textbf{modality bias}$, including visual bias and textual bias, which stems from their tendency to take unimodal shortcuts rather than rigorous cross-modal verification. To address this, we propose Modality-aware Consistency Reasoning ($\textbf{MCR}$), which enforces structured cross-modal reasoning through Multi-style Reasoning Schema Injection (MRSI) and Constraint-guided Verifiable Optimization (CVO). MRSI transforms abstract constraints into executable reasoning chains, while CVO empowers the model to dynamically align its reasoning trajectories with Group Relative Policy Optimization (GRPO). Experiments on GMNER and visual grounding tasks demonstrate that MCR effectively mitigates modality bias and achieves superior performance compared to existing baselines.

翻译：接地多模态命名实体识别（GMNER）旨在提取基于文本的实体，为其分配语义类别，并将其接地到相应的视觉区域。在本工作中，我们探索了多模态大语言模型（MLLM）以端到端方式执行GMNER的潜力，超越其在级联管道中作为辅助工具的典型角色。关键的是，我们的研究揭示了一个根本性挑战：MLLM表现出$\textbf{模态偏差}$，包括视觉偏差和文本偏差，这源于其倾向于采取单模态捷径而非严格的跨模态验证。为解决此问题，我们提出了模态感知一致性推理（$\textbf{MCR}$），该方法通过多风格推理模式注入（MRSI）和约束引导可验证优化（CVO）来强制执行结构化的跨模态推理。MRSI将抽象约束转化为可执行的推理链，而CVO则使模型能够通过组相对策略优化（GRPO）动态对齐其推理轨迹。在GMNER和视觉接地任务上的实验表明，与现有基线相比，MCR有效缓解了模态偏差并实现了更优的性能。

0

相关内容

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

专知会员服务

26+阅读 · 2025年5月16日

【ICML2025】迈向多模态通用人工智能之路：通用级别与通用基准

【ICML2025】迈向多模态通用人工智能之路：通用级别与通用基准

专知会员服务

23+阅读 · 2025年5月8日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

【CVPR2024】超越文本：在视觉信号理解中冻结的大型语言模型

【CVPR2024】超越文本：在视觉信号理解中冻结的大型语言模型

专知会员服务

20+阅读 · 2024年3月13日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

专知会员服务

92+阅读 · 2020年3月17日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

【中科院】命名实体识别技术综述

【中科院】命名实体识别技术综述

专知

16+阅读 · 2020年4月21日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

NLP命名实体识别开源实战教程 | 深度应用

NLP命名实体识别开源实战教程 | 深度应用

AI100

15+阅读 · 2019年8月18日

一文读懂命名实体识别

一文读懂命名实体识别

AINLP

32+阅读 · 2019年4月23日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

专栏 | 用神经推理来帮助命名实体识别

专栏 | 用神经推理来帮助命名实体识别

机器之心

15+阅读 · 2018年11月8日

基于Lattice LSTM的命名实体识别

基于Lattice LSTM的命名实体识别

微信AI

48+阅读 · 2018年10月19日

命名实体识别从数据集到算法实现

命名实体识别从数据集到算法实现

专知

56+阅读 · 2018年6月28日

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

专知

26+阅读 · 2018年5月22日

【论文推荐】最新六篇命名实体识别相关论文—跨专业医学、阿拉伯命名实体、中国临床、深度多任务学习、多模态、图卷积网络

【论文推荐】最新六篇命名实体识别相关论文—跨专业医学、阿拉伯命名实体、中国临床、深度多任务学习、多模态、图卷积网络

专知

54+阅读 · 2018年5月21日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机Kolmogorov型系统及其数值解的渐近性质分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

MHC多肽结合位点鉴定及超类型识别

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于异构连通需求的M2M网络拓扑控制机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Arxiv

0+阅读 · 3月4日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

Arxiv

0+阅读 · 2月25日

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

Arxiv

1+阅读 · 2月19日

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

Arxiv

0+阅读 · 2月19日

Unleashing MLLMs on the Edge: A Unified Framework for Cross-Modal ReID via Adaptive SVD Distillation

Arxiv

0+阅读 · 2月13日

Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions

Arxiv

0+阅读 · 2月10日

EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning

Arxiv

0+阅读 · 2月7日

Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning

Arxiv

0+阅读 · 2月7日

SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

1+阅读 · 今天16:12

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

1+阅读 · 今天16:08

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

2+阅读 · 今天14:39

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

2+阅读 · 今天14:00

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

4+阅读 · 今天13:20

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

4+阅读 · 今天13:16

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

11+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

5+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

3+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

8+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

7+阅读 · 5月30日

相关VIP内容

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

专知会员服务

26+阅读 · 2025年5月16日

【ICML2025】迈向多模态通用人工智能之路：通用级别与通用基准

【ICML2025】迈向多模态通用人工智能之路：通用级别与通用基准

专知会员服务

23+阅读 · 2025年5月8日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

【CVPR2024】超越文本：在视觉信号理解中冻结的大型语言模型

【CVPR2024】超越文本：在视觉信号理解中冻结的大型语言模型

专知会员服务

20+阅读 · 2024年3月13日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

专知会员服务

92+阅读 · 2020年3月17日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | OPSD：大语言模型的在线策略自蒸馏

帕兰蒂尔Maven：军事人工智能的新纪元

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

算法化战争：人工智能时代的新范式（万字长文）

相关资讯

【中科院】命名实体识别技术综述

【中科院】命名实体识别技术综述

专知

16+阅读 · 2020年4月21日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

NLP命名实体识别开源实战教程 | 深度应用

NLP命名实体识别开源实战教程 | 深度应用

AI100

15+阅读 · 2019年8月18日

一文读懂命名实体识别

一文读懂命名实体识别

AINLP

32+阅读 · 2019年4月23日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

专栏 | 用神经推理来帮助命名实体识别

专栏 | 用神经推理来帮助命名实体识别

机器之心

15+阅读 · 2018年11月8日

基于Lattice LSTM的命名实体识别

基于Lattice LSTM的命名实体识别

微信AI

48+阅读 · 2018年10月19日

命名实体识别从数据集到算法实现

命名实体识别从数据集到算法实现

专知

56+阅读 · 2018年6月28日

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

专知

26+阅读 · 2018年5月22日

【论文推荐】最新六篇命名实体识别相关论文—跨专业医学、阿拉伯命名实体、中国临床、深度多任务学习、多模态、图卷积网络

【论文推荐】最新六篇命名实体识别相关论文—跨专业医学、阿拉伯命名实体、中国临床、深度多任务学习、多模态、图卷积网络

专知

54+阅读 · 2018年5月21日

相关论文

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Arxiv

0+阅读 · 3月4日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

Arxiv

0+阅读 · 2月25日

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

Arxiv

1+阅读 · 2月19日

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

Arxiv

0+阅读 · 2月19日

Unleashing MLLMs on the Edge: A Unified Framework for Cross-Modal ReID via Adaptive SVD Distillation

Arxiv

0+阅读 · 2月13日

Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions

Arxiv

0+阅读 · 2月10日

EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning

Arxiv

0+阅读 · 2月7日

Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning

Arxiv

0+阅读 · 2月7日

SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

Arxiv

0+阅读 · 2月5日

相关基金

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机Kolmogorov型系统及其数值解的渐近性质分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

MHC多肽结合位点鉴定及超类型识别

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于异构连通需求的M2M网络拓扑控制机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员