SELEBI: Percussion-aware Time Stretching via Selective Magnitude Spectrogram Compression by Nonstationary Gabor Transform - 专知论文

会员服务 ·

0

非平稳 · 变换 · 相位 · 时域 · 图压缩 ·

SELEBI: Percussion-aware Time Stretching via Selective Magnitude Spectrogram Compression by Nonstationary Gabor Transform

翻译：SELEBI：基于非平稳Gabor变换的选择性幅度谱图压缩实现打击乐感知的时间伸缩

Natsuki Akaishi,Nicki Holighaus,Kohei Yatabe

from arxiv, This work has been submitted to the IEEE for possible publication

Phase vocoder-based time-stretching is a widely used technique for the time-scale modification of audio signals. However, conventional implementations suffer from ``percussion smearing,'' a well-known artifact that significantly degrades the quality of percussive components. We attribute this artifact to a fundamental time-scale mismatch between the temporally smeared magnitude spectrogram and the localized, newly generated phase. To address this, we propose SELEBI, a signal-adaptive phase vocoder algorithm that significantly reduces percussion smearing while preserving stability and the perfect reconstruction property. Unlike conventional methods that rely on heuristic processing or component separation, our approach leverages the nonstationary Gabor transform. By dynamically adapting analysis window lengths to assign short windows to intervals containing significant energy associated with percussive components, we directly compute a temporally localized magnitude spectrogram from the time-domain signal. This approach ensures greater consistency between the temporal structures of the magnitude and phase. Furthermore, the perfect reconstruction property of the nonstationary Gabor transform guarantees stable, high-fidelity signal synthesis, in contrast to previous heuristic approaches. Experimental results demonstrate that the proposed method effectively mitigates percussion smearing and yields natural sound quality.

翻译：基于相位声码器的时间伸缩是一种广泛使用的音频信号时域尺度修改技术。然而，传统实现方法存在“打击乐拖尾”这一显著降低打击乐成分质量的典型伪影。我们将此伪影归因于时间拖尾的幅度谱图与局部化新生成相位之间的根本性时域尺度失配。为解决这一问题，我们提出SELEBI算法，这是一种信号自适应的相位声码器算法，在保持稳定性和完美重构特性的同时，显著减少了打击乐拖尾现象。与传统依赖启发式处理或成分分离的方法不同，我们的方法利用非平稳Gabor变换，通过动态调整分析窗长度——对包含显著打击乐成分能量的区间分配短窗，直接从时域信号计算出时间局部化的幅度谱图。该方法确保了幅度与相位时域结构之间更高的一致性。此外，非平稳Gabor变换的完美重构特性保证了稳定、高保真的信号合成，这与先前的启发式方法形成鲜明对比。实验结果表明，所提方法能有效抑制打击乐拖尾现象，并产生自然的音质。

0

相关内容

非平稳

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

专知会员服务

10+阅读 · 2025年9月23日

【ICML2025】用于概率时间序列预测的非平稳扩散方法

【ICML2025】用于概率时间序列预测的非平稳扩散方法

专知会员服务

10+阅读 · 2025年5月10日

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

专知会员服务

28+阅读 · 2023年9月7日

《高压缩分支信道极化合成孔径雷达的理论与设计》2022最新180页博士论文，美国空军技术学院

《高压缩分支信道极化合成孔径雷达的理论与设计》2022最新180页博士论文，美国空军技术学院

专知会员服务

18+阅读 · 2022年10月22日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

专知会员服务

31+阅读 · 2020年1月11日

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

CVer

13+阅读 · 2020年4月14日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

一文带你读懂 SegNet（语义分割）

一文带你读懂 SegNet（语义分割）

AI研习社

19+阅读 · 2019年3月9日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相空间挤压策略的空间信号时频分析与参数估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

鲁棒性压缩感知重构技术及其在智能视频监控中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯统计的遥感影像在轨特征提取与压缩传输

国家自然科学基金

0+阅读 · 2015年12月31日

基于低噪声全并行电荷累加方式的时间延迟积分型CMOS图像传感器设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

非高斯噪声中基于分数低阶统计量的频谱感知技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

非线性压缩感知问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于先验信息压缩感知SAR成像的信息理论限及实用算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

Time-varying Vector Field Compression with Preserved Critical Point Trajectories

Arxiv

0+阅读 · 3月13日

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

Arxiv

0+阅读 · 3月4日

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Arxiv

0+阅读 · 2月27日

SemanticVocoder: Bridging Audio Generation and Audio Understanding via Semantic Latents

Arxiv

0+阅读 · 2月26日

S-PRESSO: Ultra Low Bitrate Sound Effect Compression With Diffusion Autoencoders And Offline Quantization

Arxiv

0+阅读 · 2月16日

DeLiVR: Differential Spatiotemporal Lie Bias for Efficient Video Deraining

Arxiv

0+阅读 · 2月15日

CARINOX: Inference-time Scaling with Category-Aware Reward-based Initial Noise Optimization and Exploration

Arxiv

0+阅读 · 2月10日

Gencho: Room Impulse Response Generation from Reverberant Speech and Text via Diffusion Transformers

Arxiv

0+阅读 · 2月9日

Audio Inpainting in Time-Frequency Domain with Phase-Aware Prior

Arxiv

0+阅读 · 2月5日

GeoIB: Geometry-Aware Information Bottleneck via Statistical-Manifold Compression

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

2+阅读 · 今天11:09

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

1+阅读 · 今天11:05

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

4+阅读 · 今天2:54

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

6+阅读 · 今天2:47

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

5+阅读 · 今天2:40

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

4+阅读 · 今天2:34

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

3+阅读 · 今天2:12

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

5+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

4+阅读 · 7月25日

《决策模型比较研究》

《决策模型比较研究》

专知会员服务

11+阅读 · 7月25日

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

专知会员服务

7+阅读 · 7月25日

《美军水下战与海床战概述及本地实施》

《美军水下战与海床战概述及本地实施》

专知会员服务

6+阅读 · 7月25日

面向未来冲突推进陆军情报体制改革

面向未来冲突推进陆军情报体制改革

专知会员服务

5+阅读 · 7月25日

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

专知会员服务

6+阅读 · 7月25日

相关VIP内容

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

专知会员服务

10+阅读 · 2025年9月23日

【ICML2025】用于概率时间序列预测的非平稳扩散方法

【ICML2025】用于概率时间序列预测的非平稳扩散方法

专知会员服务

10+阅读 · 2025年5月10日

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

专知会员服务

28+阅读 · 2023年9月7日

《高压缩分支信道极化合成孔径雷达的理论与设计》2022最新180页博士论文，美国空军技术学院

《高压缩分支信道极化合成孔径雷达的理论与设计》2022最新180页博士论文，美国空军技术学院

专知会员服务

18+阅读 · 2022年10月22日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

专知会员服务

31+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

ICM 2026 | 陶哲轩：人工智能时代的数学

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

ICML 2026 教程 | 数值优化理论还重要吗？

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

相关资讯

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

CVer

13+阅读 · 2020年4月14日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

一文带你读懂 SegNet（语义分割）

一文带你读懂 SegNet（语义分割）

AI研习社

19+阅读 · 2019年3月9日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

相关论文

Time-varying Vector Field Compression with Preserved Critical Point Trajectories

Arxiv

0+阅读 · 3月13日

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

Arxiv

0+阅读 · 3月4日

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Arxiv

0+阅读 · 2月27日

SemanticVocoder: Bridging Audio Generation and Audio Understanding via Semantic Latents

Arxiv

0+阅读 · 2月26日

S-PRESSO: Ultra Low Bitrate Sound Effect Compression With Diffusion Autoencoders And Offline Quantization

Arxiv

0+阅读 · 2月16日

DeLiVR: Differential Spatiotemporal Lie Bias for Efficient Video Deraining

Arxiv

0+阅读 · 2月15日

CARINOX: Inference-time Scaling with Category-Aware Reward-based Initial Noise Optimization and Exploration

Arxiv

0+阅读 · 2月10日

Gencho: Room Impulse Response Generation from Reverberant Speech and Text via Diffusion Transformers

Arxiv

0+阅读 · 2月9日

Audio Inpainting in Time-Frequency Domain with Phase-Aware Prior

Arxiv

0+阅读 · 2月5日

GeoIB: Geometry-Aware Information Bottleneck via Statistical-Manifold Compression

Arxiv

0+阅读 · 2月3日

相关基金

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相空间挤压策略的空间信号时频分析与参数估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

鲁棒性压缩感知重构技术及其在智能视频监控中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯统计的遥感影像在轨特征提取与压缩传输

国家自然科学基金

0+阅读 · 2015年12月31日

基于低噪声全并行电荷累加方式的时间延迟积分型CMOS图像传感器设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

非高斯噪声中基于分数低阶统计量的频谱感知技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

非线性压缩感知问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于先验信息压缩感知SAR成像的信息理论限及实用算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员