We study the problem of localizing audio-visual events that are both audible and visible in a video. Existing works focus on encoding and aligning audio and visual features at the segment level while neglecting informative correlation between segments of the two modalities and between multi-scale event proposals. We propose a novel MultiModulation Network (M2N) to learn the above correlation and leverage it as semantic guidance to modulate the related auditory, visual, and fused features. In particular, during feature encoding, we propose cross-modal normalization and intra-modal normalization. The former modulates the features of two modalities by establishing and exploiting the cross-modal relationship. The latter modulates the features of a single modality with the event-relevant semantic guidance of the same modality. In the fusion stage,we propose a multi-scale proposal modulating module and a multi-alignment segment modulating module to introduce multi-scale event proposals and enable dense matching between cross-modal segments. With the auditory, visual, and fused features modulated by the correlation information regarding audio-visual events, M2N performs accurate event localization. Extensive experiments conducted on the AVE dataset demonstrate that our proposed method outperforms the state of the art in both supervised event localization and cross-modality localization.


翻译:我们研究视听活动本地化的问题,这些视听活动在视频中既听觉又看得见; 现有工作的重点是在部分一级对视听特征进行编码和调整,同时忽视两种模式各部分之间和多尺度活动提案之间的信息相关性; 我们提议一个新颖的多式模拟网络(M2N),以学习上述相关性,并把它用作调控相关听觉、视觉和连接功能的语义指导; 特别是在功能编码期间,我们提议跨模式正常化和内部正常化; 前者通过建立和利用跨模式关系调整两种模式的特征; 后者以同一模式与事件相关的语义指导调整单一模式的特征; 在聚合阶段,我们提议一个多尺度的调整模块和一个多方向部分调控模块,以引入多规模事件提案,并使跨模式部门之间能够进行密集匹配; 前者通过建立和利用交叉模式关系,调整两种模式的特点; 后者调整单一模式的特征,同时调整与事件相关的语义和语义指导; M2N在组合阶段测试中,我们拟议的本地格式化数据系统化,以当地格式方式展示了我们的拟议地方化活动。

0
下载
关闭预览

相关内容

【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
【泡泡一分钟】基于视频修复的时空转换网络
泡泡机器人SLAM
5+阅读 · 2018年12月30日
二值多视角聚类:Binary Multi-View Clustering
我爱读PAMI
4+阅读 · 2018年6月24日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
0+阅读 · 2021年10月19日
Semantic Grouping Network for Video Captioning
Arxiv
3+阅读 · 2021年2月3日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
1+阅读 · 43分钟前
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
3+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
5+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
5+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
12+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关VIP内容
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
Top
微信扫码咨询专知VIP会员