The rapid growth of video content on platforms such as TikTok and YouTube has intensified the spread of multimodal hate speech, where harmful cues emerge subtly and asynchronously across visual, acoustic, and textual streams. Existing research primarily focuses on video-level classification, leaving the practically crucial task of temporal localisation, identifying when hateful segments occur, largely unaddressed. This challenge is even more noticeable under weak supervision, where only video-level labels are available, and static fusion or classification-based architectures struggle to capture cross-modal and temporal dynamics. To address these challenges, we propose MultiHateLoc, the first framework designed for weakly-supervised multimodal hate localisation. MultiHateLoc incorporates (1) modality-aware temporal encoders to model heterogeneous sequential patterns, including a tailored text-based preprocessing module for feature enhancement; (2) dynamic cross-modal fusion to adaptively emphasise the most informative modality at each moment and a cross-modal contrastive alignment strategy to enhance multimodal feature consistency; (3) a modality-aware MIL objective to identify discriminative segments under video-level supervision. Despite relying solely on coarse labels, MultiHateLoc produces fine-grained, interpretable frame-level predictions. Experiments on HateMM and MultiHateClip show that our method achieves state-of-the-art performance in the localisation task.


翻译:TikTok和YouTube等平台上视频内容的快速增长加剧了多模态仇恨言论的传播,其中有害线索在视觉、听觉和文本流中以微妙且异步的方式出现。现有研究主要集中于视频级分类,而实践中至关重要的时间定位任务——即识别仇恨片段何时发生——在很大程度上尚未得到解决。这一挑战在弱监督条件下更为显著,此时仅可获得视频级标签,而静态融合或基于分类的架构难以捕捉跨模态和时序动态特性。为应对这些挑战,我们提出了首个专为弱监督多模态仇恨定位设计的框架MultiHateLoc。该框架包含:(1) 模态感知时序编码器,用于建模异构序列模式,包括专门设计的基于文本的预处理模块以增强特征;(2) 动态跨模态融合机制,自适应地强调每一时刻信息最丰富的模态,以及跨模态对比对齐策略以提升多模态特征一致性;(3) 模态感知多示例学习目标,在视频级监督下识别具有判别性的片段。尽管仅依赖粗粒度标签,MultiHateLoc仍能生成细粒度、可解释的帧级预测。在HateMM和MultiHateClip数据集上的实验表明,我们的方法在定位任务中达到了最先进的性能。

0
下载
关闭预览

相关内容

蚂蚁多模态团队在视频多模态方向的技术探索
专知会员服务
24+阅读 · 2024年5月25日
【伯克利博士论文】多模态长视频理解,126页pdf
专知会员服务
50+阅读 · 2023年9月3日
专知会员服务
68+阅读 · 2021年10月15日
【ACM Multimedia 2020】双时间存储网络有效的视频对象分割
专知会员服务
10+阅读 · 2020年8月13日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员