Spatial semantic segmentation of sound scenes (S5) consists of jointly performing audio source separation and sound event classification from a multichannel audio mixture. Evaluating S5 systems with separation and classification metrics individually makes system comparison difficult, whereas existing joint metrics, such as the class-aware signal-to-distortion ratio (CA-SDR), can conflate separation and labeling errors. In particular, CA-SDR relies on predicted class labels for source matching, which may obscure label swaps or misclassifications when the underlying source estimates remain perceptually correct. In this work, we introduce the class and source-aware signal-to-distortion ratio (CASA-SDR), a new metric that performs permutation-invariant source matching before computing classification errors, thereby shifting from a classification-focused approach to a separation-focused approach. We first analyze CA-SDR in controlled scenarios with oracle separation and synthetic classification errors, as well as under controlled cross-contamination between sources, and compare its behavior to that of the classical SDR and CASA-SDR. We also study the impact of classification errors on the metrics by introducing error-based and source-based aggregation strategies. Finally, we compare CA-SDR and CASA-SDR on systems submitted to Task 4 of the DCASE 2025 challenge, highlighting the cases where CA-SDR over-penalizes label swaps or poorly separated sources, while CASA-SDR provides a more interpretable separation-centric assessment of S5 performance.


翻译:声音场景空间语义分割(S5)旨在从多通道音频混合中联合执行音频源分离和声音事件分类。使用分离和分类指标分别评估S5系统会导致系统比较困难,而现有的联合指标(如类感知信号失真比(CA-SDR))可能混淆分离和标注错误。具体而言,CA-SDR依赖预测的类别标签进行源匹配,当底层源估计在感知上正确时,可能掩盖标签交换或错误分类。本文引入类源感知信号失真比(CASA-SDR),这是一种新指标,在计算分类误差前执行置换不变的源匹配,从而将焦点从分类导向方法转向分离导向方法。我们首先在具有理想分离和合成分类误差的受控场景中,以及在源之间受控交叉污染下分析CA-SDR,并将其行为与经典SDR和CASA-SDR进行比较。通过引入基于误差和基于源的聚合策略,我们还研究了分类误差对指标的影响。最后,我们在提交给DCASE 2025挑战赛任务4的系统上比较CA-SDR和CASA-SDR,重点展示了CA-SDR过度惩罚标签交换或分离不充分的源的情况,而CASA-SDR则能为S5性能提供更可解释的、以分离为中心的评估。

0
下载
关闭预览

相关内容

国际计算机动画和社会代理国际会议(CASA )是世界上最古老的计算机动画和社交代理国际会议。会议主题包括但不限于计算机动画,虚拟代理,社交代理,虚拟现实和增强现实以及可视化。 官网地址:http://dblp.uni-trier.de/db/conf/ca/
基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
专知会员服务
87+阅读 · 2021年1月7日
最新《医学图像深度语义分割》综述论文
专知会员服务
97+阅读 · 2020年6月7日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
54+阅读 · 2019年7月23日
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员