Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models - 专知论文

会员服务 ·

0

相位 · SSL · 频谱 · 干涉 · 相位编码 ·

Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models

翻译：频谱-时间干涉混淆了空间音频基础模型中的相位编码

Yuxuan Chen,Haoyuan Yu,Peize He

from arxiv, Accepted to INTERSPEECH 2026; 6 pages, 3 figures

Recent spatial self supervised audio models achieve high performance on localization tasks, raising questions about their encoding of microsecond interaural phase fine structures. We propose a psychoacoustic benchmark based on the binaural masking level difference to evaluate this. Using an equalization cancellation baseline and a GCC PHAT positive control we evaluate nine frozen audio models spanning binaural SSL, monaural SSL, and neural audio codecs. Four monaural negative controls yield zero BMLD confirming binaural specificity. Two general purpose binaural SSL models exhibit minimal phase sensitivity while dedicated binaural spatial SSL models achieve BMLD comparable to the analytical baseline. Progressive physical ablations show that general purpose binaural SSL models rely on spectro temporal interference textures rather than cross channel phase computation. High detection rates in speech reflect a confounding reliance on broadband envelopes rather than genuine phase encoding.

翻译：最近的空间自监督音频模型在定位任务上表现出色，这引发了关于它们对微秒级耳间相位精细结构编码能力的疑问。我们基于双耳掩蔽级差提出了一种心理声学基准来评估这一点。利用一个均衡抵消基线和GCC-PHAT正对照，我们评估了九种冻结音频模型，涵盖双耳SSL、单耳SSL和神经音频编解码器。四个单耳负对照产生了零BMLD，证实了双耳特异性。两个通用双耳SSL模型表现出最小相位敏感性，而专用双耳空间SSL模型达到了与解析基线相当的BMLD。渐进式物理消融实验表明，通用双耳SSL模型依赖于频谱-时间干涉纹理而非跨通道相位计算。语音中的高检测率反映了对宽带包络而非真正相位编码的混淆性依赖。

0

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

23+阅读 · 2025年11月21日

【ETHZ博士论文】监督学习中的频谱偏差，149页pdf

【ETHZ博士论文】监督学习中的频谱偏差，149页pdf

专知会员服务

23+阅读 · 2024年3月16日

时间序列如何用自监督？浙大最新《自监督学习时间序列分析：分类、进展与展望》

时间序列如何用自监督？浙大最新《自监督学习时间序列分析：分类、进展与展望》

专知会员服务

72+阅读 · 2023年6月24日

去噪:有监督、自监督和无监督，57页ppt

去噪:有监督、自监督和无监督，57页ppt

专知会员服务

59+阅读 · 2023年5月3日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

最新！《信息技术系统间远程通信和信息交换时间敏感网络与用于过程控制的对象连接与嵌入统一架构融合信息模型映射》国家标准意见稿发布

最新！《信息技术系统间远程通信和信息交换时间敏感网络与用于过程控制的对象连接与嵌入统一架构融合信息模型映射》国家标准意见稿发布

专知会员服务

23+阅读 · 2022年3月28日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

【CVPR2021】CVPR2021 | MotionRNN：针对复杂时空运动的通用视频预测模型

专知会员服务

14+阅读 · 2021年4月22日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

专知

13+阅读 · 2021年12月29日

【论文笔记】用于深度时空图建模的Geaph WaveNet

【论文笔记】用于深度时空图建模的Geaph WaveNet

专知

109+阅读 · 2019年11月4日

【泡泡点云时空】SqueezeSegV2：改进模型结构和无监督领域自适应的激光雷达点云道路目标分割方法

【泡泡点云时空】SqueezeSegV2：改进模型结构和无监督领域自适应的激光雷达点云道路目标分割方法

泡泡机器人SLAM

11+阅读 · 2019年9月12日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

你真的懂时间序列预测吗？

你真的懂时间序列预测吗？

腾讯大讲堂

104+阅读 · 2019年1月7日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于相空间挤压策略的空间信号时频分析与参数估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性波前调控中的相位编码技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

脉冲星时间尺度的噪声分析与处理

国家自然科学基金

0+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

脉冲式干扰下高超声速飞行器的有限时间状态受限控制

国家自然科学基金

0+阅读 · 2015年12月31日

插值条件下DEM误差的空间自相关模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

信号时频分析与包络的数学模型

国家自然科学基金

1+阅读 · 2014年12月31日

双通道时空混合相移干涉系统及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

A Closer Look at Failure Modes in Temporal Understanding of Large Audio-Language Models

Arxiv

0+阅读 · 6月16日

HRIR-Former: Grid-Free Time-Domain Reconstruction of Head-Related Impulse Responses with a Spatially Encoded Transformer

Arxiv

0+阅读 · 6月14日

SpectCount: Spectrotemporal Counting via Synthetic Signals Improves Large Audio Language Models

Arxiv

0+阅读 · 6月5日

Probing Spatial Structure in Pretrained Audio Representations

Arxiv

0+阅读 · 6月4日

Systematic Evaluation of Time-Frequency Features for Binaural Sound Source Localization

Arxiv

0+阅读 · 5月30日

COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings

Arxiv

0+阅读 · 5月28日

MixFake: Benchmarking and Enhancing Audio Deepfake Detection in Diverse Real-world Mixed Audio

Arxiv

0+阅读 · 5月22日

Global Rotation Equivariant Phase Modeling for Speech Enhancement with Deep Magnitude-Phase Interaction

Arxiv

0+阅读 · 5月15日

Asymmetric Encoder-Decoder Based on Time-Frequency Correlation for Speech Separation

Arxiv

0+阅读 · 5月14日

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

Arxiv

0+阅读 · 4月14日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 10分钟前

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 12分钟前

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

11+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

相关VIP内容

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

23+阅读 · 2025年11月21日

【ETHZ博士论文】监督学习中的频谱偏差，149页pdf

【ETHZ博士论文】监督学习中的频谱偏差，149页pdf

专知会员服务

23+阅读 · 2024年3月16日

时间序列如何用自监督？浙大最新《自监督学习时间序列分析：分类、进展与展望》

时间序列如何用自监督？浙大最新《自监督学习时间序列分析：分类、进展与展望》

专知会员服务

72+阅读 · 2023年6月24日

去噪:有监督、自监督和无监督，57页ppt

去噪:有监督、自监督和无监督，57页ppt

专知会员服务

59+阅读 · 2023年5月3日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

最新！《信息技术系统间远程通信和信息交换时间敏感网络与用于过程控制的对象连接与嵌入统一架构融合信息模型映射》国家标准意见稿发布

最新！《信息技术系统间远程通信和信息交换时间敏感网络与用于过程控制的对象连接与嵌入统一架构融合信息模型映射》国家标准意见稿发布

专知会员服务

23+阅读 · 2022年3月28日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

【CVPR2021】CVPR2021 | MotionRNN：针对复杂时空运动的通用视频预测模型

专知会员服务

14+阅读 · 2021年4月22日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

相关资讯

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

专知

13+阅读 · 2021年12月29日

【论文笔记】用于深度时空图建模的Geaph WaveNet

【论文笔记】用于深度时空图建模的Geaph WaveNet

专知

109+阅读 · 2019年11月4日

【泡泡点云时空】SqueezeSegV2：改进模型结构和无监督领域自适应的激光雷达点云道路目标分割方法

【泡泡点云时空】SqueezeSegV2：改进模型结构和无监督领域自适应的激光雷达点云道路目标分割方法

泡泡机器人SLAM

11+阅读 · 2019年9月12日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

你真的懂时间序列预测吗？

你真的懂时间序列预测吗？

腾讯大讲堂

104+阅读 · 2019年1月7日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

A Closer Look at Failure Modes in Temporal Understanding of Large Audio-Language Models

Arxiv

0+阅读 · 6月16日

HRIR-Former: Grid-Free Time-Domain Reconstruction of Head-Related Impulse Responses with a Spatially Encoded Transformer

Arxiv

0+阅读 · 6月14日

SpectCount: Spectrotemporal Counting via Synthetic Signals Improves Large Audio Language Models

Arxiv

0+阅读 · 6月5日

Probing Spatial Structure in Pretrained Audio Representations

Arxiv

0+阅读 · 6月4日

Systematic Evaluation of Time-Frequency Features for Binaural Sound Source Localization

Arxiv

0+阅读 · 5月30日

COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings

Arxiv

0+阅读 · 5月28日

MixFake: Benchmarking and Enhancing Audio Deepfake Detection in Diverse Real-world Mixed Audio

Arxiv

0+阅读 · 5月22日

Global Rotation Equivariant Phase Modeling for Speech Enhancement with Deep Magnitude-Phase Interaction

Arxiv

0+阅读 · 5月15日

Asymmetric Encoder-Decoder Based on Time-Frequency Correlation for Speech Separation

Arxiv

0+阅读 · 5月14日

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

Arxiv

0+阅读 · 4月14日

相关基金

基于相空间挤压策略的空间信号时频分析与参数估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性波前调控中的相位编码技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

脉冲星时间尺度的噪声分析与处理

国家自然科学基金

0+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

脉冲式干扰下高超声速飞行器的有限时间状态受限控制

国家自然科学基金

0+阅读 · 2015年12月31日

插值条件下DEM误差的空间自相关模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

信号时频分析与包络的数学模型

国家自然科学基金

1+阅读 · 2014年12月31日

双通道时空混合相移干涉系统及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员