Sound Event Detection with Boundary-Aware Optimization and Inference - 专知论文

会员服务 ·

0

事件 · 事件检测 · 时序 · 序列 · 活动识别 ·

Sound Event Detection with Boundary-Aware Optimization and Inference

翻译：面向边界感知优化与推理的声音事件检测

Florian Schmid,Chi Ian Tang,Sanjeel Parekh,Vamsi Krishna Ithapu,Juan Azcarreta Ortiz,Giacomo Ferroni,Yijun Qian,Arnoldas Jasonas,Cosmin Frateanu,Camilla Clark,Gerhard Widmer,Çağdaş Bilen

from arxiv, Accepted for publication in IEEE Signal Processing Letters, 2026

Temporal detection problems appear in many fields including time-series estimation, activity recognition and sound event detection (SED). In this work, we propose a new approach to temporal event modeling by explicitly modeling event onsets and offsets, and by introducing boundary-aware optimization and inference strategies that substantially enhance temporal event detection. The presented methodology incorporates new temporal modeling layers - Recurrent Event Detection (RED) and Event Proposal Network (EPN) - which, together with tailored loss functions, enable more effective and precise temporal event detection. We evaluate the proposed method in the SED domain using a subset of the temporally-strongly annotated portion of AudioSet. Experimental results show that our approach not only outperforms traditional frame-wise SED models with state-of-the-art post-processing, but also removes the need for post-processing hyperparameter tuning, and scales to achieve new state-of-the-art performance across all AudioSet Strong classes.

翻译：时序检测问题广泛存在于时间序列估计、活动识别及声音事件检测（SED）等多个领域。本研究提出一种新的时序事件建模方法，通过显式建模事件的起始与偏移，并引入边界感知优化与推理策略，显著提升时序事件检测性能。所提方法整合了新型时序建模层——循环事件检测（RED）与事件提议网络（EPN），结合定制化损失函数，实现了更高效、更精准的时序事件检测。我们在音频数据集AudioSet中具有强时间标注的子集上对SED领域所提方法进行评估。实验结果表明，该方法不仅以先进的后期处理技术超越传统逐帧SED模型，更无需后处理超参数调优，即可在所有AudioSet强标签类别上实现新的最优性能标准。

0

相关内容

综述：AI生成视频检测，从视觉取证走向事实保真验证

综述：AI生成视频检测，从视觉取证走向事实保真验证

专知会员服务

11+阅读 · 7月14日

人工智能与战场态势感知：声音检测

人工智能与战场态势感知：声音检测

专知会员服务

28+阅读 · 2025年4月3日

ACL 2022 | 基于事理图谱增强的BERT模型的事件预测

ACL 2022 | 基于事理图谱增强的BERT模型的事件预测

专知会员服务

44+阅读 · 2022年5月30日

TPAMI2022 || 基于图神经网络实现强化的、增量和跨语言社会事件检测

TPAMI2022 || 基于图神经网络实现强化的、增量和跨语言社会事件检测

专知会员服务

35+阅读 · 2022年2月7日

事件图谱的构建、推理与应用

专知会员服务

129+阅读 · 2021年6月12日

百度事件图谱技术与应用

百度事件图谱技术与应用

专知会员服务

59+阅读 · 2020年12月30日

最新《大数据时代事件预测》综述论文，40页pdf，Emory 大学

最新《大数据时代事件预测》综述论文，40页pdf，Emory 大学

专知会员服务

68+阅读 · 2020年7月21日

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

专知会员服务

42+阅读 · 2020年3月10日

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

专知会员服务

22+阅读 · 2019年12月6日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

事件知识图谱构建技术与应用综述

事件知识图谱构建技术与应用综述

专知

25+阅读 · 2020年8月6日

事件知识图谱构建研究进展与趋势

事件知识图谱构建研究进展与趋势

THU数据派

99+阅读 · 2019年12月11日

论文浅尝 | 基于事理图谱的脚本事件预测

论文浅尝 | 基于事理图谱的脚本事件预测

开放知识图谱

10+阅读 · 2019年12月10日

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

开放知识图谱

26+阅读 · 2019年11月8日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

专知

19+阅读 · 2018年3月16日

实战｜手把手教你实现图象边缘检测！

实战｜手把手教你实现图象边缘检测！

全球人工智能

10+阅读 · 2018年1月19日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于声表面波编码器件激励的高精度事件计时测量方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

EventConnector: Mining Social Event Relations through Temporal Graphs

Arxiv

0+阅读 · 6月13日

Grammar of the Wave: Towards Explainable Multivariate Time Series Event Detection via Neuro-Symbolic VLM Agents

Arxiv

0+阅读 · 6月10日

DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities

Arxiv

0+阅读 · 6月2日

Can We Hear from Events? Generating Speech from Event Camera

Arxiv

0+阅读 · 5月26日

Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs

Arxiv

0+阅读 · 5月24日

Evaluating the Temporal Detection Capability of Integrated Gradients Applied on Sound Classifier

Arxiv

0+阅读 · 5月22日

Towards Open World Sound Event Detection

Arxiv

0+阅读 · 5月21日

Temporal Tokenization Strategies for Event Sequence Modeling with Large Language Models

Arxiv

0+阅读 · 5月11日

Towards Open World Sound Event Detection

Arxiv

0+阅读 · 5月5日

Time-RA: Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback

Arxiv

0+阅读 · 4月16日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

1+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

综述：AI生成视频检测，从视觉取证走向事实保真验证

综述：AI生成视频检测，从视觉取证走向事实保真验证

专知会员服务

11+阅读 · 7月14日

人工智能与战场态势感知：声音检测

人工智能与战场态势感知：声音检测

专知会员服务

28+阅读 · 2025年4月3日

ACL 2022 | 基于事理图谱增强的BERT模型的事件预测

ACL 2022 | 基于事理图谱增强的BERT模型的事件预测

专知会员服务

44+阅读 · 2022年5月30日

TPAMI2022 || 基于图神经网络实现强化的、增量和跨语言社会事件检测

TPAMI2022 || 基于图神经网络实现强化的、增量和跨语言社会事件检测

专知会员服务

35+阅读 · 2022年2月7日

事件图谱的构建、推理与应用

专知会员服务

129+阅读 · 2021年6月12日

百度事件图谱技术与应用

百度事件图谱技术与应用

专知会员服务

59+阅读 · 2020年12月30日

最新《大数据时代事件预测》综述论文，40页pdf，Emory 大学

最新《大数据时代事件预测》综述论文，40页pdf，Emory 大学

专知会员服务

68+阅读 · 2020年7月21日

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

专知会员服务

42+阅读 · 2020年3月10日

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

专知会员服务

22+阅读 · 2019年12月6日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

事件知识图谱构建技术与应用综述

事件知识图谱构建技术与应用综述

专知

25+阅读 · 2020年8月6日

事件知识图谱构建研究进展与趋势

事件知识图谱构建研究进展与趋势

THU数据派

99+阅读 · 2019年12月11日

论文浅尝 | 基于事理图谱的脚本事件预测

论文浅尝 | 基于事理图谱的脚本事件预测

开放知识图谱

10+阅读 · 2019年12月10日

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

开放知识图谱

26+阅读 · 2019年11月8日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

专知

19+阅读 · 2018年3月16日

实战｜手把手教你实现图象边缘检测！

实战｜手把手教你实现图象边缘检测！

全球人工智能

10+阅读 · 2018年1月19日

相关论文

EventConnector: Mining Social Event Relations through Temporal Graphs

Arxiv

0+阅读 · 6月13日

Grammar of the Wave: Towards Explainable Multivariate Time Series Event Detection via Neuro-Symbolic VLM Agents

Arxiv

0+阅读 · 6月10日

DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities

Arxiv

0+阅读 · 6月2日

Can We Hear from Events? Generating Speech from Event Camera

Arxiv

0+阅读 · 5月26日

Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs

Arxiv

0+阅读 · 5月24日

Evaluating the Temporal Detection Capability of Integrated Gradients Applied on Sound Classifier

Arxiv

0+阅读 · 5月22日

Towards Open World Sound Event Detection

Arxiv

0+阅读 · 5月21日

Temporal Tokenization Strategies for Event Sequence Modeling with Large Language Models

Arxiv

0+阅读 · 5月11日

Towards Open World Sound Event Detection

Arxiv

0+阅读 · 5月5日

Time-RA: Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback

Arxiv

0+阅读 · 4月16日

相关基金

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于声表面波编码器件激励的高精度事件计时测量方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员