From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition - 专知论文

会员服务 ·

0

水下 · 识别 · 语音大模型 · 目标识别 · 准确率 ·

From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition

翻译：从人类语音到海洋信号：迁移语音大模型用于水下声学目标识别

Mengcheng Huang,Xue Zhou,Chen Xu,Dapeng Man

Underwater acoustic target recognition (UATR) plays a vital role in marine applications but remains challenging due to limited labeled data and the complexity of ocean environments. This paper explores a central question: can speech large models (SLMs), trained on massive human speech corpora, be effectively transferred to underwater acoustics? To investigate this, we propose UATR-SLM, a simple framework that reuses the speech feature pipeline, adapts the SLM as an acoustic encoder, and adds a lightweight classifier.Experiments on the DeepShip and ShipsEar benchmarks show that UATR-SLM achieves over 99% in-domain accuracy, maintains strong robustness across variable signal lengths, and reaches up to 96.67% accuracy in cross-domain evaluation. These results highlight the strong transferability of SLMs to UATR, establishing a promising paradigm for leveraging speech foundation models in underwater acoustics.

翻译：水下声学目标识别（UATR）在海洋应用中起着至关重要的作用，但由于标记数据有限和海洋环境的复杂性，该任务仍具挑战性。本文探讨一个核心问题：在大量人类语音语料库上训练的语音大模型（SLMs）能否有效地迁移到水下声学领域？为此，我们提出了UATR-SLM，一个简单的框架，该框架复用语音特征处理流程，将SLM适配为声学编码器，并添加一个轻量级分类器。在DeepShip和ShipsEar基准测试上的实验表明，UATR-SLM实现了超过99%的域内准确率，在不同信号长度下保持了强大的鲁棒性，并在跨域评估中达到了高达96.67%的准确率。这些结果凸显了SLMs向UATR的强大可迁移性，为在水下声学中利用语音基础模型建立了一个有前景的范式。

0

相关内容

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

专知会员服务

28+阅读 · 2025年5月20日

《为水下战争开发基于深度学习的目标自动识别系统》最新报告

《为水下战争开发基于深度学习的目标自动识别系统》最新报告

专知会员服务

48+阅读 · 2024年12月7日

《语音大语言模型》最新进展综述

《语音大语言模型》最新进展综述

专知会员服务

58+阅读 · 2024年10月8日

【慕尼黑大学博士论文】基于预训练语言模型的高效迁移学习，145页pdf

【慕尼黑大学博士论文】基于预训练语言模型的高效迁移学习，145页pdf

专知会员服务

35+阅读 · 2023年9月15日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

基于深度学习的水下图像目标检测综述

基于深度学习的水下图像目标检测综述

专知会员服务

51+阅读 · 2023年4月29日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

42+阅读 · 2022年4月24日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

新智元

30+阅读 · 2019年3月1日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

海洋论坛丨水声目标识别技术现状与发展

海洋论坛丨水声目标识别技术现状与发展

无人机

26+阅读 · 2018年12月17日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

基于边界辨识的水下航行器低频线谱主动调控

国家自然科学基金

2+阅读 · 2015年12月31日

水声信号检测与识别中信号处理和特征约简的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

时频双选水声信道下高谱效OQAM-OFDM通信的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

测距优化与能量有效覆盖的三维水声传感器网络目标定位跟踪技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度神经网络的雷达目标高分辨距离像稳健识别方法

国家自然科学基金

6+阅读 · 2015年12月31日

海上无线通信中高效率动态海水天线的研究

国家自然科学基金

0+阅读 · 2015年12月31日

海洋湍流对水下激光通信的影响及其抑制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

准确大气辐射传输下的水体辐射传输研究与应用

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Can Large Audio Language Models Understand Audio Well? Speech, Scene and Events Understanding Benchmark for LALMs

Arxiv

0+阅读 · 2月13日

Learning A Physical-aware Diffusion Model Based on Transformer for Underwater Image Enhancement

Arxiv

0+阅读 · 2月12日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Attention-weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied to Speech Emotion Recognition

Arxiv

0+阅读 · 2月2日

CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

Arxiv

0+阅读 · 1月30日

Streaming Speech Recognition with Decoder-Only Large Language Models and Latency Optimization

Arxiv

0+阅读 · 1月30日

Text-only adaptation in LLM-based ASR through text denoising

Arxiv

0+阅读 · 1月28日

SLM-SS: Speech Language Model for Generative Speech Separation

Arxiv

0+阅读 · 1月27日

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs

Arxiv

0+阅读 · 1月25日

AUV Trajectory Learning for Underwater Acoustic Energy Transfer and Age Minimization

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

语音大模型

最新内容

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

7+阅读 · 今天5:53

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

3+阅读 · 今天5:45

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

2+阅读 · 今天5:23

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

1+阅读 · 今天5:11

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

6+阅读 · 今天5:04

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

4+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

7+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

9+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

5+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

5+阅读 · 7月25日

相关VIP内容

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

专知会员服务

28+阅读 · 2025年5月20日

《为水下战争开发基于深度学习的目标自动识别系统》最新报告

《为水下战争开发基于深度学习的目标自动识别系统》最新报告

专知会员服务

48+阅读 · 2024年12月7日

《语音大语言模型》最新进展综述

《语音大语言模型》最新进展综述

专知会员服务

58+阅读 · 2024年10月8日

【慕尼黑大学博士论文】基于预训练语言模型的高效迁移学习，145页pdf

【慕尼黑大学博士论文】基于预训练语言模型的高效迁移学习，145页pdf

专知会员服务

35+阅读 · 2023年9月15日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

基于深度学习的水下图像目标检测综述

基于深度学习的水下图像目标检测综述

专知会员服务

51+阅读 · 2023年4月29日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

42+阅读 · 2022年4月24日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

热门VIP内容

开通专知VIP会员享更多权益服务

美空军新型反无人机部队初探

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

相关资讯

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

新智元

30+阅读 · 2019年3月1日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

海洋论坛丨水声目标识别技术现状与发展

海洋论坛丨水声目标识别技术现状与发展

无人机

26+阅读 · 2018年12月17日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Can Large Audio Language Models Understand Audio Well? Speech, Scene and Events Understanding Benchmark for LALMs

Arxiv

0+阅读 · 2月13日

Learning A Physical-aware Diffusion Model Based on Transformer for Underwater Image Enhancement

Arxiv

0+阅读 · 2月12日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Attention-weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied to Speech Emotion Recognition

Arxiv

0+阅读 · 2月2日

CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

Arxiv

0+阅读 · 1月30日

Streaming Speech Recognition with Decoder-Only Large Language Models and Latency Optimization

Arxiv

0+阅读 · 1月30日

Text-only adaptation in LLM-based ASR through text denoising

Arxiv

0+阅读 · 1月28日

SLM-SS: Speech Language Model for Generative Speech Separation

Arxiv

0+阅读 · 1月27日

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs

Arxiv

0+阅读 · 1月25日

AUV Trajectory Learning for Underwater Acoustic Energy Transfer and Age Minimization

Arxiv

0+阅读 · 1月13日

相关基金

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

基于边界辨识的水下航行器低频线谱主动调控

国家自然科学基金

2+阅读 · 2015年12月31日

水声信号检测与识别中信号处理和特征约简的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

时频双选水声信道下高谱效OQAM-OFDM通信的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

测距优化与能量有效覆盖的三维水声传感器网络目标定位跟踪技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度神经网络的雷达目标高分辨距离像稳健识别方法

国家自然科学基金

6+阅读 · 2015年12月31日

海上无线通信中高效率动态海水天线的研究

国家自然科学基金

0+阅读 · 2015年12月31日

海洋湍流对水下激光通信的影响及其抑制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

准确大气辐射传输下的水体辐射传输研究与应用

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员