Training-Free and Interpretable Hateful Video Detection via Multi-stage Adversarial Reasoning - 专知论文

会员服务 ·

0

视频 · 视频检测 · 多阶 · 对抗 · 证据推理 ·

Training-Free and Interpretable Hateful Video Detection via Multi-stage Adversarial Reasoning

翻译：无需训练且可解释的仇恨视频检测：基于多阶段对抗推理方法

Shuonan Yang,Yuchen Zhang,Zeyu Fu

from arxiv, Accepted at ICASSP 2026. \c{opyright} 2026 IEEE. This is the author accepted manuscript. The final published version will be available via IEEE Xplore

Hateful videos pose serious risks by amplifying discrimination, inciting violence, and undermining online safety. Existing training-based hateful video detection methods are constrained by limited training data and lack of interpretability, while directly prompting large vision-language models often struggle to deliver reliable hate detection. To address these challenges, this paper introduces MARS, a training-free Multi-stage Adversarial ReaSoning framework that enables reliable and interpretable hateful content detection. MARS begins with the objective description of video content, establishing a neutral foundation for subsequent analysis. Building on this, it develops evidence-based reasoning that supports potential hateful interpretations, while in parallel incorporating counter-evidence reasoning to capture plausible non-hateful perspectives. Finally, these perspectives are synthesized into a conclusive and explainable decision. Extensive evaluation on two real-world datasets shows that MARS achieves up to 10% improvement under certain backbones and settings compared to other training-free approaches and outperforms state-of-the-art training-based methods on one dataset. In addition, MARS produces human-understandable justifications, thereby supporting compliance oversight and enhancing the transparency of content moderation workflows. The code is available at https://github.com/Multimodal-Intelligence-Lab-MIL/MARS.

翻译：仇恨视频通过加剧歧视、煽动暴力和破坏在线安全构成严重风险。现有的基于训练的仇恨视频检测方法受限于有限的训练数据和缺乏可解释性，而直接提示大型视觉语言模型往往难以实现可靠的仇恨检测。为应对这些挑战，本文提出MARS，一种无需训练的多阶段对抗推理框架，能够实现可靠且可解释的仇恨内容检测。MARS首先对视频内容进行客观描述，为后续分析建立中立基础。在此基础上，它发展出支持潜在仇恨解释的证据推理，同时并行整合反证据推理以捕捉合理的非仇恨视角。最后，这些视角被综合成结论性且可解释的决策。在两个真实数据集上的广泛评估表明，在某些骨干网络和设置下，MARS相比其他无需训练方法实现了高达10%的性能提升，并在一个数据集上超越了最先进的基于训练的方法。此外，MARS生成人类可理解的判断依据，从而支持合规监督并增强内容审核工作流程的透明度。代码发布于https://github.com/Multimodal-Intelligence-Lab-MIL/MARS。

0

相关内容

视频

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

专知会员服务

21+阅读 · 2024年4月2日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

44+阅读 · 2024年1月23日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

30+阅读 · 2023年2月17日

对抗机器学习在网络入侵检测领域的应用

对抗机器学习在网络入侵检测领域的应用

专知会员服务

35+阅读 · 2022年1月4日

生成式对抗网络异常检测，GANs for Anomaly Detection

专知会员服务

34+阅读 · 2021年9月16日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

最新《深度学习视频异常检测》2020综述论文，21页pdf

最新《深度学习视频异常检测》2020综述论文，21页pdf

专知会员服务

86+阅读 · 2020年9月30日

【北卡罗莱纳州立大学】单场景视频异常检测综述，A Survey of Single-Scene Video Anomaly Detection

【北卡罗莱纳州立大学】单场景视频异常检测综述，A Survey of Single-Scene Video Anomaly Detection

专知会员服务

31+阅读 · 2020年4月13日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

【AAAI2020接受论文】多任务自监督学习的不流利检测，Multi-Task Self-Supervised Learning for Disfluency Detection

【AAAI2020接受论文】多任务自监督学习的不流利检测，Multi-Task Self-Supervised Learning for Disfluency Detection

专知会员服务

14+阅读 · 2019年11月11日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

论文浅尝 | 多内容实体和关系联合抽取的对抗训练

论文浅尝 | 多内容实体和关系联合抽取的对抗训练

开放知识图谱

42+阅读 · 2018年12月4日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于密集快速特征提取的可视媒体篡改检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection

Arxiv

0+阅读 · 2月5日

Causality Guided Representation Learning for Cross-Style Hate Speech Detection

Arxiv

0+阅读 · 2月3日

Improving Implicit Hate Speech Detection via a Community-Driven Multi-Agent Framework

Arxiv

0+阅读 · 1月27日

MultiHateLoc: Towards Temporal Localisation of Multimodal Hate Content in Online Videos

Arxiv

0+阅读 · 1月26日

Labels or Input? Rethinking Augmentation in Multimodal Hate Detection

Arxiv

0+阅读 · 1月24日

TANDEM: Temporal-Aware Neural Detection for Multimodal Hate Speech

Arxiv

0+阅读 · 1月16日

Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method

Arxiv

0+阅读 · 1月15日

Improving Implicit Hate Speech Detection via a Community-Driven Multi-Agent Framework

Arxiv

0+阅读 · 1月14日

DIVER: Dynamic Iterative Visual Evidence Reasoning for Multimodal Fake News Detection

Arxiv

0+阅读 · 1月12日

X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 52分钟前

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 57分钟前

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

4+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

9+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

7+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

专知会员服务

21+阅读 · 2024年4月2日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

44+阅读 · 2024年1月23日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

30+阅读 · 2023年2月17日

对抗机器学习在网络入侵检测领域的应用

对抗机器学习在网络入侵检测领域的应用

专知会员服务

35+阅读 · 2022年1月4日

生成式对抗网络异常检测，GANs for Anomaly Detection

专知会员服务

34+阅读 · 2021年9月16日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

最新《深度学习视频异常检测》2020综述论文，21页pdf

最新《深度学习视频异常检测》2020综述论文，21页pdf

专知会员服务

86+阅读 · 2020年9月30日

【北卡罗莱纳州立大学】单场景视频异常检测综述，A Survey of Single-Scene Video Anomaly Detection

【北卡罗莱纳州立大学】单场景视频异常检测综述，A Survey of Single-Scene Video Anomaly Detection

专知会员服务

31+阅读 · 2020年4月13日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

【AAAI2020接受论文】多任务自监督学习的不流利检测，Multi-Task Self-Supervised Learning for Disfluency Detection

【AAAI2020接受论文】多任务自监督学习的不流利检测，Multi-Task Self-Supervised Learning for Disfluency Detection

专知会员服务

14+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

论文浅尝 | 多内容实体和关系联合抽取的对抗训练

论文浅尝 | 多内容实体和关系联合抽取的对抗训练

开放知识图谱

42+阅读 · 2018年12月4日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

相关论文

xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection

Arxiv

0+阅读 · 2月5日

Causality Guided Representation Learning for Cross-Style Hate Speech Detection

Arxiv

0+阅读 · 2月3日

Improving Implicit Hate Speech Detection via a Community-Driven Multi-Agent Framework

Arxiv

0+阅读 · 1月27日

MultiHateLoc: Towards Temporal Localisation of Multimodal Hate Content in Online Videos

Arxiv

0+阅读 · 1月26日

Labels or Input? Rethinking Augmentation in Multimodal Hate Detection

Arxiv

0+阅读 · 1月24日

TANDEM: Temporal-Aware Neural Detection for Multimodal Hate Speech

Arxiv

0+阅读 · 1月16日

Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method

Arxiv

0+阅读 · 1月15日

Improving Implicit Hate Speech Detection via a Community-Driven Multi-Agent Framework

Arxiv

0+阅读 · 1月14日

DIVER: Dynamic Iterative Visual Evidence Reasoning for Multimodal Fake News Detection

Arxiv

0+阅读 · 1月12日

X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

Arxiv

0+阅读 · 1月6日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于密集快速特征提取的可视媒体篡改检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员