Towards Open World Sound Event Detection - 专知论文

会员服务 ·

0

Learning · 多样性 · 操作 · 回合 · Vision ·

Towards Open World Sound Event Detection

翻译：面向开放世界的声学事件检测

P. H. Hai,L. T. Minh,L. H. Son

from arxiv, 32 pages, 3 figures. Submitted to Signal Processing (Elsevier)

Sound Event Detection (SED) plays a vital role in audio understanding, with applications in surveillance, smart cities, healthcare, and multimedia indexing. However, conventional SED systems operate under a closed-world assumption, limiting their effectiveness in real-world environments where novel acoustic events frequently emerge. Inspired by the success of open-world learning in computer vision, we introduce the Open-World Sound Event Detection (OW-SED) paradigm, where models must detect known events, identify unseen ones, and incrementally learn from them. To tackle the unique challenges of OW-SED, such as overlapping and ambiguous events, we propose a 1D Deformable architecture that leverages deformable attention to adaptively focus on salient temporal regions. Furthermore, we design a novel Open-World Deformable Sound Event Detection Transformer (WOOT) framework incorporating feature disentanglement to separate class-specific and class-agnostic representations, together with a one-to-many matching strategy and a diversity loss to enhance representation diversity. Experimental results demonstrate that our method achieves marginally superior performance compared to existing leading techniques in closed-world settings and significantly improves over existing baselines in open-world scenarios.

翻译：声学事件检测（SED）在音频理解中扮演着重要角色，广泛应用于监控、智慧城市、医疗保健及多媒体索引等领域。然而，传统SED系统基于封闭世界假设运作，限制了其在新型声学事件频繁出现的真实环境中的有效性。受计算机视觉中开放世界学习成功的启发，我们提出了开放世界声学事件检测（OW-SED）范式——模型需同时检测已知事件、识别未知事件并增量学习新事件。针对OW-SED中重叠事件与模糊事件等独特挑战，我们提出一维可变形架构，利用可变形注意力机制自适应聚焦显著时域区域。此外，我们设计了一种新颖的开放世界可变形声学事件检测Transformer（WOOT）框架，通过特征解耦分离类别特定与类别无关表征，并引入一对多匹配策略与多样性损失以增强表征多样性。实验结果表明，该方法在封闭世界场景下性能略优于现有领先技术，在开放世界场景中则显著超越现有基线方法。

0

相关内容

Learning

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

17+阅读 · 5月30日

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

迈向开放世界检测：综述

迈向开放世界检测：综述

专知会员服务

24+阅读 · 2025年8月25日

人工智能与战场态势感知：声音检测

人工智能与战场态势感知：声音检测

专知会员服务

28+阅读 · 2025年4月3日

开放世界物体识别与检测系统：现状、挑战与展望

开放世界物体识别与检测系统：现状、挑战与展望

专知会员服务

38+阅读 · 2024年6月20日

开放环境目标检测：挑战、解决方案与展望

开放环境目标检测：挑战、解决方案与展望

专知会员服务

46+阅读 · 2024年3月28日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

【CVPR2021】面向开放世界的目标检测

专知会员服务

27+阅读 · 2021年3月5日

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

专知会员服务

22+阅读 · 2019年12月6日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

新型相机DVS/Event-based camera的发展及应用

新型相机DVS/Event-based camera的发展及应用

计算机视觉life

16+阅读 · 2019年3月12日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

回顾 | 中科院自动化所副研究员刘康：开放域环境下文本事件抽取

回顾 | 中科院自动化所副研究员刘康：开放域环境下文本事件抽取

机器学习研究会

19+阅读 · 2017年12月15日

基于多元数据分析的城市开放空间声景品质景观影响要素提取与评价

国家自然科学基金

0+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

用于音频子系统的自适应动态电源放大器新结构及其噪声抑制机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

封闭空间中声源辐射阻抗特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

声学风洞传声器阵列测试的射流剪切层修正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

环境噪声对儿童影响及相应修复性环境的实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

A Neuromorphic Trigger for Efficient Audio Event Detection

Arxiv

0+阅读 · 6月16日

Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

Arxiv

0+阅读 · 6月12日

Towards Event-Robust Acoustic Scene Classification

Arxiv

0+阅读 · 6月10日

Sound Event Detection with Boundary-Aware Optimization and Inference

Arxiv

0+阅读 · 6月6日

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

Arxiv

0+阅读 · 6月6日

Acoustic Simulation Framework for Multi-channel Replay Speech Detection

Arxiv

0+阅读 · 5月29日

From Talking to Singing: A New Challenge for Audio-Visual Deepfake Detection

Arxiv

0+阅读 · 5月27日

Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs

Arxiv

0+阅读 · 5月24日

Towards Open World Sound Event Detection

Arxiv

0+阅读 · 5月21日

Multi-Channel Replay Speech Detection using Acoustic Maps

Arxiv

0+阅读 · 5月20日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

2+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

17+阅读 · 5月30日

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

迈向开放世界检测：综述

迈向开放世界检测：综述

专知会员服务

24+阅读 · 2025年8月25日

人工智能与战场态势感知：声音检测

人工智能与战场态势感知：声音检测

专知会员服务

28+阅读 · 2025年4月3日

开放世界物体识别与检测系统：现状、挑战与展望

开放世界物体识别与检测系统：现状、挑战与展望

专知会员服务

38+阅读 · 2024年6月20日

开放环境目标检测：挑战、解决方案与展望

开放环境目标检测：挑战、解决方案与展望

专知会员服务

46+阅读 · 2024年3月28日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

【CVPR2021】面向开放世界的目标检测

专知会员服务

27+阅读 · 2021年3月5日

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

专知会员服务

22+阅读 · 2019年12月6日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

新型相机DVS/Event-based camera的发展及应用

新型相机DVS/Event-based camera的发展及应用

计算机视觉life

16+阅读 · 2019年3月12日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

回顾 | 中科院自动化所副研究员刘康：开放域环境下文本事件抽取

回顾 | 中科院自动化所副研究员刘康：开放域环境下文本事件抽取

机器学习研究会

19+阅读 · 2017年12月15日

相关论文

A Neuromorphic Trigger for Efficient Audio Event Detection

Arxiv

0+阅读 · 6月16日

Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

Arxiv

0+阅读 · 6月12日

Towards Event-Robust Acoustic Scene Classification

Arxiv

0+阅读 · 6月10日

Sound Event Detection with Boundary-Aware Optimization and Inference

Arxiv

0+阅读 · 6月6日

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

Arxiv

0+阅读 · 6月6日

Acoustic Simulation Framework for Multi-channel Replay Speech Detection

Arxiv

0+阅读 · 5月29日

From Talking to Singing: A New Challenge for Audio-Visual Deepfake Detection

Arxiv

0+阅读 · 5月27日

Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs

Arxiv

0+阅读 · 5月24日

Towards Open World Sound Event Detection

Arxiv

0+阅读 · 5月21日

Multi-Channel Replay Speech Detection using Acoustic Maps

Arxiv

0+阅读 · 5月20日

相关基金

基于多元数据分析的城市开放空间声景品质景观影响要素提取与评价

国家自然科学基金

0+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

用于音频子系统的自适应动态电源放大器新结构及其噪声抑制机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

封闭空间中声源辐射阻抗特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

声学风洞传声器阵列测试的射流剪切层修正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

环境噪声对儿童影响及相应修复性环境的实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员