Grounded Multimodal Named Entity Recognition (GMNER) aims to extract named entities and localize their visual regions within image-text pairs, serving as a pivotal capability for various downstream applications. In open-world social media platforms, GMNER remains challenging due to the prevalence of long-tailed, rapidly evolving, and unseen entities. To tackle this, existing approaches typically rely on either external knowledge exploration through heuristic retrieval or internal knowledge exploitation via iterative refinement in Multimodal Large Language Models (MLLMs). However, heuristic retrieval often introduces noisy or conflicting evidence that degrades precision on known entities, while solely internal exploitation is constrained by the knowledge boundaries of MLLMs and prone to hallucinations. To address this, we propose SAKE, an end-to-end agentic framework that harmonizes internal knowledge exploitation and external knowledge exploration via self-aware reasoning and adaptive search tool invocation. We implement this via a two-stage training paradigm. First, we propose Difficulty-aware Search Tag Generation, which quantifies the model's entity-level uncertainty through multiple forward samplings to produce explicit knowledge-gap signals. Based on these signals, we construct SAKE-SeCoT, a high-quality Chain-of-Thought dataset that equips the model with basic self-awareness and tool-use capabilities through supervised fine-tuning. Second, we employ agentic reinforcement learning with a hybrid reward function that penalizes unnecessary retrieval, enabling the model to evolve from rigid search imitation to genuine self-aware decision-making about when retrieval is truly necessary. Extensive experiments on two widely used social media benchmarks demonstrate SAKE's effectiveness.


翻译:多模态接地命名实体识别(GMNER)旨在从图像-文本对中提取命名实体并定位其视觉区域,是实现多种下游应用的关键能力。在开放世界社交媒体平台中,由于长尾、快速演变及未知实体的普遍存在,GMNER仍面临挑战。为解决此问题,现有方法通常依赖通过启发式检索的外部知识探索,或通过多模态大语言模型(MLLM)迭代优化的内部知识利用。然而,启发式检索常引入噪声或冲突证据,降低已知实体识别精度;而单纯内部利用受限于MLLM的知识边界,易产生幻觉。为此,我们提出SAKE——一种端到端智能体框架,通过自知推理和自适应搜索工具调用,协调内部知识利用与外部知识探索。我们采用两阶段训练范式实现该方法:首先提出难度感知搜索标签生成机制,通过多次前向采样量化模型在实体层级的不确定性,生成显式知识缺口信号。基于这些信号构建SAKE-SeCoT高质量思维链数据集,通过监督微调赋予模型基础自知能力和工具使用能力;其次采用智能体强化学习,结合混合奖励函数惩罚不必要的检索操作,使模型从僵化的搜索模仿进化为真正的自知决策——判断何时真正需要检索。在两大社交媒体基准数据集上的大量实验证明了SAKE的有效性。

0
下载
关闭预览

相关内容

专知会员服务
71+阅读 · 2021年8月20日
专知会员服务
25+阅读 · 2021年6月17日
专知会员服务
157+阅读 · 2020年4月21日
【中科院】命名实体识别技术综述
专知
16+阅读 · 2020年4月21日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
一文读懂命名实体识别
人工智能头条
33+阅读 · 2019年3月29日
专栏 | 用神经推理来帮助命名实体识别
机器之心
15+阅读 · 2018年11月8日
命名实体识别从数据集到算法实现
专知
56+阅读 · 2018年6月28日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
11+阅读 · 2023年5月15日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员