Analytic Incremental Learning For Sound Source Localization With Imbalance Rectification - 专知论文

会员服务 ·

0

不平衡 · 声源定位 · 增量学习 · 长尾分布 · 定位精度 ·

Analytic Incremental Learning For Sound Source Localization With Imbalance Rectification

翻译：基于不平衡校正的声源定位解析式增量学习

Zexia Fan,Yu Chen,Qiquan Zhang,Kainan Chen,Xinyuan Qian

from arxiv, Accepted by ICASSP26

Sound source localization (SSL) demonstrates remarkable results in controlled settings but struggles in real-world deployment due to dual imbalance challenges: intra-task imbalance arising from long-tailed direction-of-arrival (DoA) distributions, and inter-task imbalance induced by cross-task skews and overlaps. These often lead to catastrophic forgetting, significantly degrading the localization accuracy. To mitigate these issues, we propose a unified framework with two key innovations. Specifically, we design a GCC-PHAT-based data augmentation (GDA) method that leverages peak characteristics to alleviate intra-task distribution skews. We also propose an Analytic dynamic imbalance rectifier (ADIR) with task-adaption regularization, which enables analytic updates that adapt to inter-task dynamics. On the SSLR benchmark, our proposal achieves state-of-the-art (SoTA) results of 89.0% accuracy, 5.3° mean absolute error, and 1.6 backward transfer, demonstrating robustness to evolving imbalances without exemplar storage.

翻译：声源定位在受控环境中表现出卓越的性能，但在实际部署中却面临双重不平衡挑战：由到达方向的长尾分布引起的任务内不平衡，以及由跨任务偏斜和重叠引起的任务间不平衡。这些挑战常导致灾难性遗忘，显著降低定位精度。为缓解这些问题，我们提出了一个统一框架，包含两项关键创新。具体而言，我们设计了一种基于GCC-PHAT的数据增强方法，该方法利用峰值特征来缓解任务内分布偏斜。我们还提出了一种具有任务自适应正则化的解析式动态不平衡校正器，能够实现适应任务间动态变化的解析式更新。在SSLR基准测试中，我们的方案取得了89.0%的准确率、5.3°的平均绝对误差和1.6的后向迁移率等最先进的结果，证明了其在无需存储样本的情况下对演化不平衡的鲁棒性。

0

相关内容

不平衡

【ICML2025】通过双重平衡协同专家解决不平衡的领域增量学习问题

【ICML2025】通过双重平衡协同专家解决不平衡的领域增量学习问题

专知会员服务

16+阅读 · 2025年7月10日

不平衡数据学习的全面综述

不平衡数据学习的全面综述

专知会员服务

44+阅读 · 2025年2月15日

【ACMMM2024】用于多媒体推荐的模态平衡学习"

【ACMMM2024】用于多媒体推荐的模态平衡学习"

专知会员服务

13+阅读 · 2024年8月14日

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

【ACL2024】语言模型对齐的不确定性感知学习

【ACL2024】语言模型对齐的不确定性感知学习

专知会员服务

25+阅读 · 2024年6月10日

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

专知会员服务

33+阅读 · 2023年8月31日

【CVPR2023】基于梯度不确定性归因的可解释贝叶斯深度学习

【CVPR2023】基于梯度不确定性归因的可解释贝叶斯深度学习

专知会员服务

42+阅读 · 2023年4月14日

【ICML2021】深入研究不平衡回归问题

专知会员服务

37+阅读 · 2021年6月6日

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

专知会员服务

24+阅读 · 2020年4月12日

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

专知会员服务

46+阅读 · 2019年11月15日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡一分钟】复杂室内环境中声源定位的自监督增量学习

【泡泡一分钟】复杂室内环境中声源定位的自监督增量学习

泡泡机器人SLAM

10+阅读 · 2019年9月9日

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

AINLP

53+阅读 · 2019年8月15日

推荐：一文教你如何处理不平衡数据集（附代码）

推荐：一文教你如何处理不平衡数据集（附代码）

数据分析

20+阅读 · 2019年6月3日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

冲击噪声与持续性稳态噪声混合条件下的有源控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于分布式电磁矢量传感器阵列的混合信源定位方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Bias-Corrected Data Synthesis for Imbalanced Learning

Arxiv

0+阅读 · 2月15日

Geometric Manifold Rectification for Imbalanced Learning

Arxiv

0+阅读 · 2月13日

Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning

Arxiv

0+阅读 · 2月10日

Mitigating Long-Tail Bias via Prompt-Controlled Diffusion Augmentation

Arxiv

0+阅读 · 2月4日

Multi-Task Learning for Robot Perception with Imbalanced Data

Arxiv

0+阅读 · 2月2日

DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acoustic Scene Classification under Domain Shift

Arxiv

0+阅读 · 1月30日

MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

Arxiv

0+阅读 · 1月29日

Learning What To Hear: Boosting Sound-Source Association For Robust Audiovisual Instance Segmentation

Arxiv

0+阅读 · 1月29日

Sound event localization and classification using WASN in Outdoor Environment

Arxiv

0+阅读 · 1月24日

Classification Imbalance as Transfer Learning

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

9+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

9+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

8+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

14+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

7+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

9+阅读 · 4月18日

人工智能在战场行动中的演进及伊朗案例

人工智能在战场行动中的演进及伊朗案例

专知会员服务

7+阅读 · 4月18日

美AI公司Anthropic推出网络安全模型“Mythos”

美AI公司Anthropic推出网络安全模型“Mythos”

专知会员服务

4+阅读 · 4月18日

【博士论文】面向城市环境的可解释计算机视觉

【博士论文】面向城市环境的可解释计算机视觉

专知会员服务

5+阅读 · 4月18日

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

专知会员服务

4+阅读 · 4月18日

大语言模型的自改进机制：技术综述与未来展望

大语言模型的自改进机制：技术综述与未来展望

专知会员服务

7+阅读 · 4月18日

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

11+阅读 · 4月18日

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

11+阅读 · 4月18日

《第四代军事特种作战部队选拔与评估》

《第四代军事特种作战部队选拔与评估》

专知会员服务

3+阅读 · 4月18日

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

6+阅读 · 4月18日

相关VIP内容

【ICML2025】通过双重平衡协同专家解决不平衡的领域增量学习问题

【ICML2025】通过双重平衡协同专家解决不平衡的领域增量学习问题

专知会员服务

16+阅读 · 2025年7月10日

不平衡数据学习的全面综述

不平衡数据学习的全面综述

专知会员服务

44+阅读 · 2025年2月15日

【ACMMM2024】用于多媒体推荐的模态平衡学习"

【ACMMM2024】用于多媒体推荐的模态平衡学习"

专知会员服务

13+阅读 · 2024年8月14日

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

【ACL2024】语言模型对齐的不确定性感知学习

【ACL2024】语言模型对齐的不确定性感知学习

专知会员服务

25+阅读 · 2024年6月10日

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

专知会员服务

33+阅读 · 2023年8月31日

【CVPR2023】基于梯度不确定性归因的可解释贝叶斯深度学习

【CVPR2023】基于梯度不确定性归因的可解释贝叶斯深度学习

专知会员服务

42+阅读 · 2023年4月14日

【ICML2021】深入研究不平衡回归问题

专知会员服务

37+阅读 · 2021年6月6日

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

专知会员服务

24+阅读 · 2020年4月12日

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

专知会员服务

46+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《利用大语言模型增强多域作战兵棋推演》（报告）

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡一分钟】复杂室内环境中声源定位的自监督增量学习

【泡泡一分钟】复杂室内环境中声源定位的自监督增量学习

泡泡机器人SLAM

10+阅读 · 2019年9月9日

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

AINLP

53+阅读 · 2019年8月15日

推荐：一文教你如何处理不平衡数据集（附代码）

推荐：一文教你如何处理不平衡数据集（附代码）

数据分析

20+阅读 · 2019年6月3日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

相关论文

Bias-Corrected Data Synthesis for Imbalanced Learning

Arxiv

0+阅读 · 2月15日

Geometric Manifold Rectification for Imbalanced Learning

Arxiv

0+阅读 · 2月13日

Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning

Arxiv

0+阅读 · 2月10日

Mitigating Long-Tail Bias via Prompt-Controlled Diffusion Augmentation

Arxiv

0+阅读 · 2月4日

Multi-Task Learning for Robot Perception with Imbalanced Data

Arxiv

0+阅读 · 2月2日

DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acoustic Scene Classification under Domain Shift

Arxiv

0+阅读 · 1月30日

MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

Arxiv

0+阅读 · 1月29日

Learning What To Hear: Boosting Sound-Source Association For Robust Audiovisual Instance Segmentation

Arxiv

0+阅读 · 1月29日

Sound event localization and classification using WASN in Outdoor Environment

Arxiv

0+阅读 · 1月24日

Classification Imbalance as Transfer Learning

Arxiv

0+阅读 · 1月15日

相关基金

冲击噪声与持续性稳态噪声混合条件下的有源控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于分布式电磁矢量传感器阵列的混合信源定位方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员