Sound event localization and detection with distance estimation (3D SELD) in video involves identifying active sound events at each time frame while estimating their spatial coordinates. This multimodal task requires joint reasoning across semantic, spatial, and temporal dimensions, a challenge that single models often struggle to address effectively. To tackle this, we introduce the Team of Specialists (ToS) ensemble framework, which integrates three complementary sub-networks: a spatio-linguistic model, a spatio-temporal model, and a tempo-linguistic model. Each sub-network specializes in a unique pair of dimensions, contributing distinct insights to the final prediction, akin to a collaborative team with diverse expertise. ToS has been benchmarked against state-of-the-art audio-visual models for 3D SELD on the DCASE2025 Task 3 Stereo SELD development set, consistently outperforming existing methods across key metrics. Future work will extend this proof of concept by strengthening the specialists with appropriate tasks, training, and pre-training curricula.


翻译:视频中带距离估计的声事件定位与检测(3D SELD)涉及识别每一时间帧中的活跃声事件,并同时估计其空间坐标。这项多模态任务需要在语义、空间和时间维度上进行联合推理,单一模型往往难以有效应对这一挑战。为此,我们提出了专家团队(ToS)集成框架,该框架整合了三个互补的子网络:一个空间-语言模型、一个空间-时间模型以及一个时间-语言模型。每个子网络专精于一对独特的维度,为最终预测贡献不同的见解,类似于一个拥有多样化专业知识的协作团队。ToS已在DCASE2025任务3立体声SELD开发集上,针对3D SELD任务与最先进的视听模型进行了基准测试,在关键指标上持续优于现有方法。未来的工作将通过为各专家设计适当的任务、训练及预训练方案来强化其能力,从而扩展这一概念验证。

0
下载
关闭预览

相关内容

TOS: ACM Transactions on Storage。 Explanation:ACM存储事务。 Publisher:ACM。 SIT: http://dblp.uni-trier.de/db/journals/tos/
蚂蚁多模态团队在视频多模态方向的技术探索
专知会员服务
24+阅读 · 2024年5月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
新型相机DVS/Event-based camera的发展及应用
计算机视觉life
16+阅读 · 2019年3月12日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
蚂蚁多模态团队在视频多模态方向的技术探索
专知会员服务
24+阅读 · 2024年5月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员