Underwater acoustic classification has a wide array of oceanic applications, but faces challenges due to an increasingly complex acoustic environment. Waveform and spectrogram representations have been primarily used as acoustic data features for classification tasks in this domain. Spectrograms model harmonic dependencies, but these reduced representations can filter out acoustic features relevant for discrimination. While phase information from the waveform allows full characterization of the signal, the original waveform can be noisy and complex, rendering this representation difficult for models to process directly. This paper proposes a dual-encoder neural architecture to simultaneously process acoustic waveforms and spectrograms, leveraging pre-trained backbones and parameter-efficient fine-tuning modules, enabling a domain adaptation. To combine these adapted branches, a novel differentiable fuzzy aggregation mechanism based on the Choquet integral is introduced to balance the temporal and spectral representations. This fusion strategy not only yields higher classification accuracy but also provides interpretability. Specifically, by analyzing the learned fuzzy measures, insights are revealed about class-specific shifts in the network's representation reliance. By dynamically shifting attention to the representation least corrupted by potential asymmetric channel distortions, the proposed gating mechanism mitigates the non-stationary challenges of the underwater environment. Evaluations on the DeepShip and ShipsEar datasets demonstrate that the proposed architecture achieves classification improvements over independent single-encoder baselines, while simultaneously restricting the trainable parameter space. This mitigates the risk of overfitting on limited acoustic datasets while alleviating the computational costs associated with fully fine-tuning foundation models.


翻译:水下声学分类在海洋应用中具有广泛前景,但日益复杂的声学环境使其面临挑战。波形和频谱图表示一直是该领域分类任务中声学数据特征的主要使用形式。频谱图可建模谐波依赖关系,但此类降维表示可能过滤掉与判别相关的声学特征。虽然波形中的相位信息能完整表征信号,但原始波形可能包含噪声且结构复杂,导致模型难以直接处理。本文提出一种双编码器神经架构,可同时处理声学波形与频谱图,通过预训练骨干网络和参数高效微调模块实现领域自适应。为融合两个适配分支,我们引入基于乔奎特积分的可微模糊聚合机制,以平衡时序与频谱表征。该融合策略不仅提升分类精度,还具备可解释性:通过分析学习到的模糊测度,能够揭示网络表征依赖性的类别特异性偏移。所提出的门控机制通过动态将注意力转向受潜在非对称信道失真影响最小的表征,缓解水下环境的非平稳挑战。在DeepShip和ShipsEar数据集上的评估表明,该架构相较于独立单编码器基线实现分类性能提升,同时限制可训练参数空间,这既降低了有限声学数据集上的过拟合风险,又减轻了完全微调基础模型的计算开销。

0
下载
关闭预览

相关内容

水声目标定位与跟踪综述:进展、挑战与展望
专知会员服务
30+阅读 · 2025年6月22日
水下图像增强与复原技术进展与展望
专知会员服务
15+阅读 · 2024年9月5日
基于深度学习的水下图像目标检测综述
专知会员服务
50+阅读 · 2023年4月29日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
专知会员服务
43+阅读 · 2021年8月30日
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
图分类:结合胶囊网络Capsule和图卷积GCN(附代码)
中国人工智能学会
36+阅读 · 2019年2月26日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
海洋论坛丨水声目标识别技术现状与发展
无人机
26+阅读 · 2018年12月17日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
详述DeepMind wavenet原理及其TensorFlow实现
深度学习每日摘要
12+阅读 · 2017年6月26日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 5月21日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关资讯
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
图分类:结合胶囊网络Capsule和图卷积GCN(附代码)
中国人工智能学会
36+阅读 · 2019年2月26日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
海洋论坛丨水声目标识别技术现状与发展
无人机
26+阅读 · 2018年12月17日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
详述DeepMind wavenet原理及其TensorFlow实现
深度学习每日摘要
12+阅读 · 2017年6月26日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员