Spatial semantic segmentation of sound scenes (S5) consists of jointly performing audio source separation and sound event classification from a multichannel audio mixture. Evaluating S5 systems with separation and classification metrics individually makes system comparison difficult, whereas existing joint metrics, such as the class-aware signal-to-distortion ratio (CA-SDR), can conflate separation and labeling errors. In particular, CA-SDR relies on predicted class labels for source matching, which may obscure label swaps or misclassifications when the underlying source estimates remain perceptually correct. In this work, we introduce the class and source-aware signal-to-distortion ratio (CASA-SDR), a new metric that performs permutation-invariant source matching before computing classification errors, thereby shifting from a classification-focused approach to a separation-focused approach. We first analyze CA-SDR in controlled scenarios with oracle separation and synthetic classification errors, as well as under controlled cross-contamination between sources, and compare its behavior to that of the classical SDR and CASA-SDR. We also study the impact of classification errors on the metrics by introducing error-based and source-based aggregation strategies. Finally, we compare CA-SDR and CASA-SDR on systems submitted to Task 4 of the DCASE 2025 challenge, highlighting the cases where CA-SDR over-penalizes label swaps or poorly separated sources, while CASA-SDR provides a more interpretable separation-centric assessment of S5 performance.


翻译:声场空间语义分割(S5)任务旨在从多通道音频混合信号中同时实现音频源分离与声音事件分类。现有评估方法若单独采用分离指标与分类指标,将导致系统间难以直接比较;而现有联合度量指标(如类别感知信噪比)则可能混淆分离误差与标注误差。具体而言,CA-SDR依赖预测类别标签进行源匹配,当底层源估计在感知层面保持正确时,该方法可能掩盖标签置换或误分类问题。本研究提出类别与源感知信噪比(CASA-SDR),该新型度量指标在计算分类误差前执行置换不变的源匹配,从而将评估重心从分类导向转为分离导向。我们首先在受控场景下分析CA-SDR:包括采用理想分离与合成分类误差的场景,以及受控源间交叉污染场景,并将其表现与经典SDR及CASA-SDR进行对比。通过引入基于误差和基于源的聚合策略,我们进一步研究分类误差对各度量指标的影响。最后,我们在DCASE 2025挑战赛任务四的提交系统上对比CA-SDR与CASA-SDR,结果表明:当CA-SDR对标签置换或分离效果较差的声源过度惩罚时,CASA-SDR能为S5性能提供更具可解释性的、以分离为核心的评估。

0
下载
关闭预览

相关内容

小样本语义分割研究现状与分析
专知会员服务
23+阅读 · 2024年11月11日
基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
专知会员服务
75+阅读 · 2021年1月16日
专知会员服务
87+阅读 · 2021年1月7日
最新《医学图像深度语义分割》综述论文
专知会员服务
97+阅读 · 2020年6月7日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
54+阅读 · 2019年7月23日
超详细干货 | 三维语义分割概述及总结
计算机视觉life
33+阅读 · 2019年3月19日
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
语义分割如何「拉关系」?
计算机视觉life
11+阅读 · 2019年2月15日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
0+阅读 · 今天3:12
(中文)认知战的本体论基础(2026报告)
专知会员服务
11+阅读 · 今天1:45
美空军条令(2026):外国对内防御
专知会员服务
2+阅读 · 今天1:32
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
7+阅读 · 4月16日
《自动化战略情报管控》
专知会员服务
3+阅读 · 4月16日
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
3+阅读 · 4月16日
【CMU博士论文】迈向可解释机器学习的理论基础
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员