FBHM: Functional Benchmarking and Steering of VLMs for Hateful Meme Detection - 专知论文

会员服务 ·

0

基准 · 基准测试 · 语言模型 · 视觉语言模型 · 数据集 ·

FBHM: Functional Benchmarking and Steering of VLMs for Hateful Meme Detection

翻译：FBHM：面向仇恨模因检测的视觉语言模型功能基准测试与引导

Paramananda Bhaskar,Naquee Rizwan,Daksh Jogchand,Saurabh Kumar Pandey,Animesh Mukherjee

Hateful meme detection remains a formidable challenge for vision-language models, as existing benchmarks are structurally observational - confounding rhetorical hate mechanisms with target community features and preventing causal evaluation of model vulnerabilities. To address this, we introduce FBHM, a systematically curated benchmark of Functionality Based Hateful Memes constructed along two orthogonal axes: 25 distinct rhetorical functionalities and 10 target communities (5,000 memes total). Benchmarking state-of-the-art VLMs reveals a severe generalization gap: models highly accurate on standard datasets catastrophically drop to near-random performance on FBHM, proving they exploit dataset-specific heuristics rather than robust multimodal reasoning. To efficiently close this gap, we propose LSV (learnable steering vectors), an ultra-low data regime strategy that applies a causal intervention objective on as few as 500 steering samples (50 unique base memes), boosting FBHM performance by ~30 Macro-F1 points while outperforming in-context learning and PEFT without degrading source-domain performance.

翻译：仇恨模因检测对视觉语言模型而言仍是一项艰巨挑战，现有基准在结构上属于观测性基准——混淆修辞性仇恨机制与目标社区特征，阻碍了对模型脆弱性的因果评估。为此，我们提出了FBHM，一个基于系统化构建的功能性仇恨模因基准，沿两个正交维度组织：25种不同修辞功能与10个目标社区（总计5000个模因）。对当前最先进视觉语言模型的基准测试揭示了严重的泛化差距：在标准数据集上精度极高的模型，其在FBHM上的性能急剧下降至近乎随机水平，证明模型利用的是数据集特定启发式规则，而非稳健的多模态推理。为有效弥合这一差距，我们提出了LSV（可学习引导向量），一种超低数据量策略，通过仅在500个引导样本（50个独特基础模因）上施加因果干预目标，将FBHM性能提升约30个宏F1分数点，且在上下文学习和PEFT方法上均表现更优，同时不降低源域性能。

0

相关内容

【ICCV2025教程】视觉异常检测中的基础模型：进展、挑战与应用

【ICCV2025教程】视觉异常检测中的基础模型：进展、挑战与应用

专知会员服务

17+阅读 · 2025年10月28日

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

51+阅读 · 2024年6月30日

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

专知会员服务

47+阅读 · 2023年1月5日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习世界

10+阅读 · 2017年9月18日

图像认知中的遮挡影响分析及建模

国家自然科学基金

0+阅读 · 2017年12月31日

评估出生缺陷风险的父源性表观遗传学标志物--相关印记基因筛选

国家自然科学基金

0+阅读 · 2016年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

LADBench: A Benchmark for Logical Fault Detection in Images

Arxiv

0+阅读 · 6月16日

Adapting Reinforcement Learning with Chain-of-Thought Supervision for Explainable Detection of Hateful and Propagandistic Memes

Arxiv

0+阅读 · 6月13日

Detecting Hate and Inflammatory Content in Bengali Memes: A New Multimodal Dataset and Co-Attention Framework

Arxiv

0+阅读 · 6月13日

MirrorCheck: Efficient Adversarial Defense for Vision-Language Models

Arxiv

0+阅读 · 6月12日

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Arxiv

0+阅读 · 6月11日

MLUBench: A Benchmark for Lifelong Unlearning Evaluation in MLLMs

Arxiv

0+阅读 · 6月11日

Decoding Multimodal Cues: Unveiling the Implicit Meaning Behind Hateful Videos

Arxiv

0+阅读 · 6月10日

PBT-Bench: Benchmarking AI Agents on Property-Based Testing

Arxiv

0+阅读 · 5月30日

Attribute-Based Diagnosis of LLM Alignment with Hate Speech Annotations

Arxiv

0+阅读 · 5月26日

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

视觉语言模型

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【ICCV2025教程】视觉异常检测中的基础模型：进展、挑战与应用

【ICCV2025教程】视觉异常检测中的基础模型：进展、挑战与应用

专知会员服务

17+阅读 · 2025年10月28日

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

51+阅读 · 2024年6月30日

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

专知会员服务

47+阅读 · 2023年1月5日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习世界

10+阅读 · 2017年9月18日

相关论文

LADBench: A Benchmark for Logical Fault Detection in Images

Arxiv

0+阅读 · 6月16日

Adapting Reinforcement Learning with Chain-of-Thought Supervision for Explainable Detection of Hateful and Propagandistic Memes

Arxiv

0+阅读 · 6月13日

Detecting Hate and Inflammatory Content in Bengali Memes: A New Multimodal Dataset and Co-Attention Framework

Arxiv

0+阅读 · 6月13日

MirrorCheck: Efficient Adversarial Defense for Vision-Language Models

Arxiv

0+阅读 · 6月12日

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Arxiv

0+阅读 · 6月11日

MLUBench: A Benchmark for Lifelong Unlearning Evaluation in MLLMs

Arxiv

0+阅读 · 6月11日

Decoding Multimodal Cues: Unveiling the Implicit Meaning Behind Hateful Videos

Arxiv

0+阅读 · 6月10日

PBT-Bench: Benchmarking AI Agents on Property-Based Testing

Arxiv

0+阅读 · 5月30日

Attribute-Based Diagnosis of LLM Alignment with Hate Speech Annotations

Arxiv

0+阅读 · 5月26日

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Arxiv

0+阅读 · 5月6日

相关基金

图像认知中的遮挡影响分析及建模

国家自然科学基金

0+阅读 · 2017年12月31日

评估出生缺陷风险的父源性表观遗传学标志物--相关印记基因筛选

国家自然科学基金

0+阅读 · 2016年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员