Although Coordinate-MLP-based implicit neural representations have excelled in representing radiance fields, 3D shapes, and images, their application to audio signals remains underexplored. To fill this gap, we investigate existing implicit neural representations, from which we extract 3 types of positional encoding and 16 commonly used activation functions. Through combinatorial design, we establish the first benchmark for Coordinate-MLPs in audio signal representations. Our benchmark reveals that Coordinate-MLPs require complex hyperparameter tuning and frequency-dependent initialization, limiting their robustness. To address these issues, we propose Fourier-ASR, a novel framework based on the Fourier series theorem and the Kolmogorov-Arnold representation theorem. Fourier-ASR introduces Fourier Kolmogorov-Arnold Networks (Fourier-KAN), which leverage periodicity and strong nonlinearity to represent audio signals, eliminating the need for additional positional encoding. Furthermore, a Frequency-adaptive Learning Strategy (FaLS) is proposed to enhance the convergence of Fourier-KAN by capturing high-frequency components and preventing overfitting of low-frequency signals. Extensive experiments conducted on natural speech and music datasets reveal that: (1) well-designed positional encoding and activation functions in Coordinate-MLPs can effectively improve audio representation quality; and (2) Fourier-ASR can robustly represent complex audio signals without extensive hyperparameter tuning. Looking ahead, the continuity and infinite resolution of implicit audio representations make our research highly promising for tasks such as audio compression, synthesis, and generation. The source code will be released publicly to ensure reproducibility. The code is available at https://github.com/lif314/Fourier-ASR.


翻译:尽管基于坐标MLP的隐式神经表示在辐射场、三维形状和图像表示方面表现出色,但其在音频信号领域的应用仍待深入探索。为填补这一空白,本研究系统考察了现有隐式神经表示方法,从中提取出三类位置编码方式和十六种常用激活函数。通过组合设计,我们建立了首个面向音频信号表示的坐标MLP基准测试体系。该基准测试表明,坐标MLP需要复杂的超参数调优和频率相关的初始化策略,这限制了其鲁棒性。为解决这些问题,我们提出了基于傅里叶级数定理和柯尔莫哥洛夫-阿诺德表示定理的新型框架Fourier-ASR。该框架引入了傅里叶柯尔莫哥洛夫-阿诺德网络(Fourier-KAN),利用周期性和强非线性特性表示音频信号,无需额外位置编码。此外,我们提出了频率自适应学习策略(FaLS),通过捕捉高频分量并防止低频信号过拟合来增强Fourier-KAN的收敛性。在自然语音和音乐数据集上进行的大量实验表明:(1)坐标MLP中精心设计的位置编码和激活函数能有效提升音频表示质量;(2)Fourier-ASR无需大量超参数调优即可鲁棒地表示复杂音频信号。展望未来,隐式音频表示的连续性和无限分辨率特性使本研究在音频压缩、合成与生成等任务中具有广阔前景。为保障可复现性,源代码将公开发布于https://github.com/lif314/Fourier-ASR。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
48+阅读 · 2025年11月21日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
24+阅读 · 2023年5月10日
重新思考图卷积网络:GNN只是一种滤波器
新智元
28+阅读 · 2019年6月3日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员