如何在具有多种声源的『鸡尾酒会』中区分不同的声音对象,这对人类来说是一项基本能力,但对当前的机器而言却仍然极具挑战!为此,本文提出一种基于课程学习策略的两阶段框架,实现了自监督下不同发声物体的判别性感知与定位。首先,我们提出在单声源场景中聚合候选声音定位结果以学习鲁棒的物体表征。进而在鸡尾酒会情景中,参考先期课程学习到的物体知识以生成不同物体的语义判别性定位图,通过将视音一致性视为自监督信息,匹配视音类别分布以滤除无声物体和选择发声对象。大量基于合成和真实多声源场景的实验表明,本文所提模型能够实现在无语义类别标注情形下,同时滤除无声物体和指出发声物体的明确位置并判定其类别属性,这在视觉多声源定位上尚属首次。

https://www.zhuanzhi.ai/paper/a3e7afb0a5c86f35871aa5269f7668ae

成为VIP会员查看完整内容
13

相关内容

【AAAI2021】利用先验知识对场景图进行分类
专知会员服务
61+阅读 · 2020年12月3日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
15+阅读 · 2020年10月27日
专知会员服务
46+阅读 · 2020年10月22日
【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介
专知会员服务
20+阅读 · 2020年10月18日
专知会员服务
47+阅读 · 2020年10月5日
一种小目标检测中有效的数据增强方法
极市平台
119+阅读 · 2019年3月23日
检测与识别人与目标之间的互动
极市平台
5+阅读 · 2018年10月12日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
5+阅读 · 2018年10月23日
Arxiv
9+阅读 · 2018年3月28日
VIP会员
最新内容
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
0+阅读 · 今天14:33
长时程具身智能安全综述:机器人操作的跨层分析
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
2+阅读 · 今天13:55
ICML 2026 | 演化选择的因果建模
专知会员服务
4+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
4+阅读 · 6月5日
人工智能重塑威慑:算法优势的兴起
专知会员服务
7+阅读 · 6月5日
AgentOps综述:智能体系统运维框架
专知会员服务
16+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
13+阅读 · 6月4日
微信扫码咨询专知VIP会员