Metric Analysis for Spatial Semantic Segmentation of Sound Scenes - 专知论文

会员服务 ·

0

CASA · 分割 · 分析 · 系统 · 语义分割 ·

Metric Analysis for Spatial Semantic Segmentation of Sound Scenes

翻译：声音场景空间语义分割的度量分析

Mayank Mishra,Paul Magron,Romain Serizel

from arxiv, 5 pages; content+bibliography

Spatial semantic segmentation of sound scenes (S5) consists of jointly performing audio source separation and sound event classification from a multichannel audio mixture. Evaluating S5 systems with separation and classification metrics individually makes system comparison difficult, whereas existing joint metrics, such as the class-aware signal-to-distortion ratio (CA-SDR), can conflate separation and labeling errors. In particular, CA-SDR relies on predicted class labels for source matching, which may obscure label swaps or misclassifications when the underlying source estimates remain perceptually correct. In this work, we introduce the class and source-aware signal-to-distortion ratio (CASA-SDR), a new metric that performs permutation-invariant source matching before computing classification errors, thereby shifting from a classification-focused approach to a separation-focused approach. We first analyze CA-SDR in controlled scenarios with oracle separation and synthetic classification errors, as well as under controlled cross-contamination between sources, and compare its behavior to that of the classical SDR and CASA-SDR. We also study the impact of classification errors on the metrics by introducing error-based and source-based aggregation strategies. Finally, we compare CA-SDR and CASA-SDR on systems submitted to Task 4 of the DCASE 2025 challenge, highlighting the cases where CA-SDR over-penalizes label swaps or poorly separated sources, while CASA-SDR provides a more interpretable separation-centric assessment of S5 performance.

翻译：声音场景空间语义分割(S5)旨在从多通道音频混合中联合执行音频源分离和声音事件分类。使用分离和分类指标分别评估S5系统会导致系统比较困难，而现有的联合指标（如类感知信号失真比(CA-SDR)）可能混淆分离和标注错误。具体而言，CA-SDR依赖预测的类别标签进行源匹配，当底层源估计在感知上正确时，可能掩盖标签交换或错误分类。本文引入类源感知信号失真比(CASA-SDR)，这是一种新指标，在计算分类误差前执行置换不变的源匹配，从而将焦点从分类导向方法转向分离导向方法。我们首先在具有理想分离和合成分类误差的受控场景中，以及在源之间受控交叉污染下分析CA-SDR，并将其行为与经典SDR和CASA-SDR进行比较。通过引入基于误差和基于源的聚合策略，我们还研究了分类误差对指标的影响。最后，我们在提交给DCASE 2025挑战赛任务4的系统上比较CA-SDR和CASA-SDR，重点展示了CA-SDR过度惩罚标签交换或分离不充分的源的情况，而CASA-SDR则能为S5性能提供更可解释的、以分离为中心的评估。

0

相关内容

CASA

国际计算机动画和社会代理国际会议（CASA ）是世界上最古老的计算机动画和社交代理国际会议。会议主题包括但不限于计算机动画，虚拟代理，社交代理，虚拟现实和增强现实以及可视化。官网地址：http://dblp.uni-trier.de/db/conf/ca/

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

专知会员服务

12+阅读 · 2025年9月4日

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

专知会员服务

28+阅读 · 2025年5月20日

基于深度学习的实时语义分割综述

基于深度学习的实时语义分割综述

专知会员服务

32+阅读 · 2023年11月27日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

深度卷积神经网络图像语义分割研究进展

专知会员服务

87+阅读 · 2021年1月7日

最新《医学图像深度语义分割》综述论文

最新《医学图像深度语义分割》综述论文

专知会员服务

97+阅读 · 2020年6月7日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

专知会员服务

32+阅读 · 2019年11月8日

纵览图像语义分割发展史，11篇关键文章简介

纵览图像语义分割发展史，11篇关键文章简介

专知

13+阅读 · 2019年8月1日

综述 | 语义分割经典网络及轻量化模型盘点

综述 | 语义分割经典网络及轻量化模型盘点

计算机视觉life

54+阅读 · 2019年7月23日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

DL | 语义分割综述

DL | 语义分割综述

机器学习算法与Python学习

58+阅读 · 2019年3月13日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

语义分割中的深度学习方法全解：从FCN、SegNet到各版本DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到各版本DeepLab

量子位

18+阅读 · 2017年7月10日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多元数据分析的城市开放空间声景品质景观影响要素提取与评价

国家自然科学基金

0+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization

Arxiv

0+阅读 · 6月14日

Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models

Arxiv

0+阅读 · 6月10日

Evaluating Multimodal Steganalysis for Split-Payload Audiovisual Steganography

Arxiv

0+阅读 · 6月7日

Probing Spatial Structure in Pretrained Audio Representations

Arxiv

0+阅读 · 6月4日

A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References

Arxiv

0+阅读 · 6月3日

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Arxiv

0+阅读 · 6月2日

COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings

Arxiv

0+阅读 · 5月28日

LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation

Arxiv

0+阅读 · 5月27日

Evaluating the Temporal Detection Capability of Integrated Gradients Applied on Sound Classifier

Arxiv

0+阅读 · 5月22日

Cinematic Audio Source Separation Using Visual Cues

Arxiv

0+阅读 · 3月27日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

10+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

20+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

专知会员服务

12+阅读 · 2025年9月4日

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

专知会员服务

28+阅读 · 2025年5月20日

基于深度学习的实时语义分割综述

基于深度学习的实时语义分割综述

专知会员服务

32+阅读 · 2023年11月27日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

深度卷积神经网络图像语义分割研究进展

专知会员服务

87+阅读 · 2021年1月7日

最新《医学图像深度语义分割》综述论文

最新《医学图像深度语义分割》综述论文

专知会员服务

97+阅读 · 2020年6月7日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

专知会员服务

32+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

纵览图像语义分割发展史，11篇关键文章简介

纵览图像语义分割发展史，11篇关键文章简介

专知

13+阅读 · 2019年8月1日

综述 | 语义分割经典网络及轻量化模型盘点

综述 | 语义分割经典网络及轻量化模型盘点

计算机视觉life

54+阅读 · 2019年7月23日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

DL | 语义分割综述

DL | 语义分割综述

机器学习算法与Python学习

58+阅读 · 2019年3月13日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

语义分割中的深度学习方法全解：从FCN、SegNet到各版本DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到各版本DeepLab

量子位

18+阅读 · 2017年7月10日

相关论文

LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization

Arxiv

0+阅读 · 6月14日

Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models

Arxiv

0+阅读 · 6月10日

Evaluating Multimodal Steganalysis for Split-Payload Audiovisual Steganography

Arxiv

0+阅读 · 6月7日

Probing Spatial Structure in Pretrained Audio Representations

Arxiv

0+阅读 · 6月4日

A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References

Arxiv

0+阅读 · 6月3日

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Arxiv

0+阅读 · 6月2日

COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings

Arxiv

0+阅读 · 5月28日

LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation

Arxiv

0+阅读 · 5月27日

Evaluating the Temporal Detection Capability of Integrated Gradients Applied on Sound Classifier

Arxiv

0+阅读 · 5月22日

Cinematic Audio Source Separation Using Visual Cues

Arxiv

0+阅读 · 3月27日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多元数据分析的城市开放空间声景品质景观影响要素提取与评价

国家自然科学基金

0+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员