Sound Event Detection (SED) plays a vital role in audio understanding, with applications in surveillance, smart cities, healthcare, and multimedia indexing. However, conventional SED systems operate under a closed-world assumption, limiting their effectiveness in real-world environments where novel acoustic events frequently emerge. Inspired by the success of open-world learning in computer vision, we introduce the Open-World Sound Event Detection (OW-SED) paradigm, where models must detect known events, identify unseen ones, and incrementally learn from them. To tackle the unique challenges of OW-SED, such as overlapping and ambiguous events, we propose a 1D Deformable architecture that leverages deformable attention to adaptively focus on salient temporal regions. Furthermore, we design a novel Open-World Deformable Sound Event Detection Transformer (WOOT) framework incorporating feature disentanglement to separate class-specific and class-agnostic representations, together with a one-to-many matching strategy and a diversity loss to enhance representation diversity. Experimental results demonstrate that our method achieves marginally superior performance compared to existing leading techniques in closed-world settings and significantly improves over existing baselines in open-world scenarios.


翻译:声学事件检测(SED)在音频理解中扮演着重要角色,广泛应用于监控、智慧城市、医疗保健及多媒体索引等领域。然而,传统SED系统基于封闭世界假设运作,限制了其在新型声学事件频繁出现的真实环境中的有效性。受计算机视觉中开放世界学习成功的启发,我们提出了开放世界声学事件检测(OW-SED)范式——模型需同时检测已知事件、识别未知事件并增量学习新事件。针对OW-SED中重叠事件与模糊事件等独特挑战,我们提出一维可变形架构,利用可变形注意力机制自适应聚焦显著时域区域。此外,我们设计了一种新颖的开放世界可变形声学事件检测Transformer(WOOT)框架,通过特征解耦分离类别特定与类别无关表征,并引入一对多匹配策略与多样性损失以增强表征多样性。实验结果表明,该方法在封闭世界场景下性能略优于现有领先技术,在开放世界场景中则显著超越现有基线方法。

0
下载
关闭预览

相关内容

基于声学的无人机检测技术综述
专知会员服务
17+阅读 · 5月30日
迈向开放世界检测:综述
专知会员服务
24+阅读 · 2025年8月25日
人工智能与战场态势感知:声音检测
专知会员服务
28+阅读 · 2025年4月3日
开放世界物体识别与检测系统:现状、挑战与展望
专知会员服务
38+阅读 · 2024年6月20日
开放环境目标检测:挑战、解决方案与展望
专知会员服务
46+阅读 · 2024年3月28日
专知会员服务
27+阅读 · 2021年3月5日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
新型相机DVS/Event-based camera的发展及应用
计算机视觉life
16+阅读 · 2019年3月12日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月21日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员