Multimedia Event Extraction (MEE) aims to identify events and their arguments from documents that contain both text and images. It requires grounding event semantics across different modalities. Progress in MEE is limited by the lack of annotated training data. M2E2 is the only established benchmark, but it provides annotations only for evaluation. This makes direct supervised training impractical. Existing methods mainly rely on cross-modal alignment or inference-time prompting with Vision--Language Models (VLMs). These approaches do not explicitly learn structured event representations and often produce weak argument grounding in multimodal settings. To address these limitations, we propose RMPL, a Relation-aware Multi-task Progressive Learning framework for MEE under low-resource conditions. RMPL incorporates heterogeneous supervision from unimodal event extraction and multimedia relation extraction with stage-wise training. The model is first trained with a unified schema to learn shared event-centric representations across modalities. It is then fine-tuned for event mention identification and argument role extraction using mixed textual and visual data. Experiments on the M2E2 benchmark with multiple VLMs show consistent improvements across different modality settings.


翻译:多媒体事件抽取(MEE)旨在从包含文本和图像的文档中识别事件及其论元,其核心在于跨模态对齐事件语义。当前MEE研究进展受限于标注训练数据的匮乏。M2E2是唯一已建立的基准数据集,但其仅提供评估用标注,导致直接监督训练难以实施。现有方法主要依赖跨模态对齐或利用视觉-语言模型(VLM)进行推理时提示。这些方法未能显式学习结构化事件表示,且在多模态场景中常产生较弱的论元定位效果。为应对这些局限,本文提出RMPL——一种面向低资源条件下MEE的关系感知多任务渐进式学习框架。RMPL通过分阶段训练,融合了来自单模态事件抽取与多媒体关系抽取的异构监督信号。该模型首先通过统一模式训练以学习跨模态共享的以事件为中心的表示,随后使用混合文本与视觉数据对事件提及识别及论元角色抽取任务进行微调。在M2E2基准上使用多种VLM的实验表明,该方法在不同模态设置下均能取得持续的性能提升。

0
下载
关闭预览

相关内容

《多模态态势感知交互》美陆军研究实验室
专知会员服务
53+阅读 · 2024年12月19日
AAAI2022 | 针对事件论元抽取学会高效地提问
专知会员服务
13+阅读 · 2022年1月5日
北航《深度学习事件抽取》文献综述和当前趋势
专知会员服务
87+阅读 · 2021年7月6日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
论文浅尝 | Zero-Shot Transfer Learning for Event Extraction
开放知识图谱
26+阅读 · 2018年11月1日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《多模态态势感知交互》美陆军研究实验室
专知会员服务
53+阅读 · 2024年12月19日
AAAI2022 | 针对事件论元抽取学会高效地提问
专知会员服务
13+阅读 · 2022年1月5日
北航《深度学习事件抽取》文献综述和当前趋势
专知会员服务
87+阅读 · 2021年7月6日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员