Sound Event Detection (SED) plays a vital role in audio understanding, with applications in surveillance, smart cities, healthcare, and multimedia indexing. However, conventional SED systems operate under a closed-world assumption, limiting their effectiveness in real-world environments where novel acoustic events frequently emerge. Inspired by the success of open-world learning in computer vision, we introduce the Open-World Sound Event Detection (OW-SED) paradigm, where models must detect known events, identify unseen ones, and incrementally learn from them. To tackle the unique challenges of OW-SED, such as overlapping and ambiguous events, we propose a 1D Deformable architecture that leverages deformable attention to adaptively focus on salient temporal regions. Furthermore, we design a novel Open-World Deformable Sound Event Detection Transformer (WOOT) framework incorporating feature disentanglement to separate class-specific and class-agnostic representations, together with a one-to-many matching strategy and a diversity loss to enhance representation diversity. Experimental results demonstrate that our method achieves marginally superior performance compared to existing leading techniques in closed-world settings and significantly improves over existing baselines in open-world scenarios.


翻译:声音事件检测(SED)在音频理解中扮演着重要角色,广泛应用于监控、智慧城市、医疗健康以及多媒体索引等领域。然而,传统SED系统基于封闭世界假设运行,这限制了其在真实环境中的有效性,因为真实环境中常出现新颖的声学事件。受计算机视觉中开放世界学习成功经验的启发,我们提出开放世界声音事件检测(OW-SED)范式,其中模型需检测已知事件、识别未见事件,并从中进行增量学习。为应对OW-SED中的独特挑战(如重叠和模糊事件),我们提出一种基于一维可变形架构的方法,利用可变形注意力机制自适应地聚焦于显著的时间区域。此外,我们设计了一种新颖的开放世界可变形声音事件检测Transformer(WOOT)框架,该框架引入特征解耦以分离类别特定与类别无关的表示,并结合一对多匹配策略与多样性损失来增强表示多样性。实验结果表明,我们的方法在封闭世界设置下比现有领先技术略具优势,并在开放世界场景中显著优于现有基线方法。

0
下载
关闭预览

相关内容

基于声学的无人机检测技术综述
专知会员服务
17+阅读 · 5月30日
迈向开放世界检测:综述
专知会员服务
24+阅读 · 2025年8月25日
人工智能与战场态势感知:声音检测
专知会员服务
28+阅读 · 2025年4月3日
开放世界物体识别与检测系统:现状、挑战与展望
专知会员服务
38+阅读 · 2024年6月20日
开放环境目标检测:挑战、解决方案与展望
专知会员服务
46+阅读 · 2024年3月28日
专知会员服务
27+阅读 · 2021年3月5日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月5日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员