Hateful and propagandistic memes exploit the interplay between images and text to convey harmful intent that neither modality reveals alone. Although thinking-based multimodal large language models (MLLMs) have advanced vision-language understanding, their application to meme content moderation remains underexplored. We propose a reinforcement learning-based post-training method that improves classification performance and reference-based explanation quality in thinking-based MLLMs via task-specific rewards and Group Relative Policy Optimization (GRPO). Concretely, we (i) conduct a systematic empirical study of off-the-shelf MLLMs for hateful and propagandistic meme understanding across English and Arabic benchmarks, (ii) extend existing meme datasets with weakly supervised chain-of-thought (CoT) rationales via distillation and multi-LLM fine-grained propaganda annotations, (iii) introduce a GRPO-based objective with thinking-length regularization that jointly optimizes classification accuracy and explanation quality, and (iv) investigate self-supervised GRPO on unlabeled memes using consensus-based pseudo-labels. Experiments on the Hateful Memes and ArMeme benchmarks show that our approach improves over previously reported results on FHM accuracy (up to +2.1%, from 79.9% to 82.0%) and on ArMeme macro-F1 (up to +7.6 points, from 0.536 to 0.612 with explanations; +6.1 compared to the original ArMeme benchmark), while also generating natural-language explanations. On ArMeme, sequence-classification baselines remain stronger in terms of raw accuracy, whereas our approach provides more balanced per-class performance along with explanations. We publicly release our code, data extensions, and evaluation resources.


翻译:仇恨与宣传性模因利用图像与文本间的相互作用来传达有害意图,这种意图无法仅通过任一单独模态揭示。尽管基于思考的多模态大语言模型(MLLMs)已推动视觉-语言理解取得进展,但其在模因内容审核中的应用仍未被充分探索。我们提出一种基于强化学习的后训练方法,通过任务特定奖励与组相对策略优化(GRPO),提升基于思考的MLLMs的分类性能与基于参考的解释质量。具体而言,我们:(i) 在英语与阿拉伯语基准上,对现成MLLMs进行仇恨与宣传性模因理解的系统性实证研究;(ii) 通过蒸馏与多LLM细粒度宣传标注,为现有模因数据集扩展弱监督的思维链(CoT)推理逻辑;(iii) 引入基于GRPO的含思维长度正则化的目标函数,联合优化分类准确性与解释质量;(iv) 基于共识伪标签,研究针对未标注模因的自监督GRPO方法。在Hateful Memes与ArMeme基准上的实验表明,我们的方法在FHM准确率(提升最多2.1%,从79.9%至82.0%)与ArMeme宏F1值(提升最多7.6个百分点,从0.536至含解释的0.612;相较于原始ArMeme基准提升6.1)上均优于先前报道的结果,同时生成自然语言解释。在ArMeme上,序列分类基线在原始准确率方面仍具优势,而我们的方法在提供更均衡的各类别性能的同时,还生成了解释。我们已公开发布代码、数据扩展与评估资源。

0
下载
关闭预览

相关内容

【MIT博士论文】弱监督学习:理论、方法与应用
专知会员服务
33+阅读 · 2025年12月21日
面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
37+阅读 · 2025年5月3日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员