CUHK-EE Systems for the vTAD Challenge at NCMMSC 2025 - 专知论文

会员服务 ·

0

系统 · 大学 · 语音技术 · 属性 · 鲁棒 ·

CUHK-EE Systems for the vTAD Challenge at NCMMSC 2025

翻译：香港中文大学电子工程系语音技术实验室为NCMMSC 2025 vTAD挑战赛开发的系统

Aemon Yat Fei Chiu,Jingyu Li,Yusheng Tian,Guangyan Zhang,Tan Lee

from arxiv, Accepted at the 20th National Conference on Man-Machine Speech Communication (NCMMSC 2025)

This paper presents the Voice Timbre Attribute Detection (vTAD) systems developed by the Digital Signal Processing & Speech Technology Laboratory (DSP&STL) of the Department of Electronic Engineering (EE) at The Chinese University of Hong Kong (CUHK) for the 20th National Conference on Human-Computer Speech Communication (NCMMSC 2025) vTAD Challenge. The proposed systems leverage WavLM-Large embeddings with attentive statistical pooling (ASTP) to extract robust speaker representations, followed by two variants of Diff-Net, i.e., Feed-Forward Neural Network (FFN) and Squeeze-and-Excitation-enhanced Residual FFN (SE-ResFFN), to compare timbre attribute intensities between utterance pairs. Experimental results demonstrate that the WavLM-Large+FFN system generalises better to unseen speakers, achieving 77.96% accuracy and 21.79% equal error rate (EER), while the WavLM-Large+SE-ResFFN model excels in the 'Seen' setting with 94.42% accuracy and 5.49% EER. These findings highlight a trade-off between model complexity and generalisation, and underscore the importance of architectural choices in fine-grained speaker modelling. Our analysis also reveals the impact of speaker identity, annotation subjectivity, and data imbalance on system performance, pointing to future directions for improving robustness and fairness in timbre attribute detection.

翻译：本文介绍了香港中文大学电子工程系数字信号处理与语音技术实验室为第二十届全国人机语音通讯学术会议（NCMMSC 2025）音色属性检测挑战赛所开发的系统。所提出的系统利用WavLM-Large嵌入与注意力统计池化来提取鲁棒的说话人表征，随后采用两种Diff-Net变体——即前馈神经网络与挤压激励增强残差前馈神经网络——来比较语音对之间的音色属性强度。实验结果表明，WavLM-Large+FFN系统在未见说话人上泛化能力更佳，取得了77.96%的准确率与21.79%的等错误率；而WavLM-Large+SE-ResFFN模型在“可见”说话人设置下表现更优，准确率达到94.42%，等错误率为5.49%。这些发现揭示了模型复杂度与泛化能力之间的权衡，并强调了架构选择在细粒度说话人建模中的重要性。我们的分析还揭示了说话人身份、标注主观性以及数据不平衡对系统性能的影响，为未来提升音色属性检测的鲁棒性与公平性指明了方向。

0

相关内容

【CUHK博士论文】提升自动语音识别系统的效率与可靠性

【CUHK博士论文】提升自动语音识别系统的效率与可靠性

专知会员服务

11+阅读 · 2025年4月15日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

最新! 语音顶级会议ICASSP2022最佳论文出炉, 美国范德堡大学和澳大利亚国立大学等获最佳论文,中科院LSEC等获最佳学生

最新! 语音顶级会议ICASSP2022最佳论文出炉, 美国范德堡大学和澳大利亚国立大学等获最佳论文,中科院LSEC等获最佳学生

专知会员服务

19+阅读 · 2022年5月28日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

【ICML2021】基于标记和未标记数据的统一语音表示学习

专知会员服务

10+阅读 · 2021年7月28日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

达摩院基于元学习的对话系统

达摩院基于元学习的对话系统

专知会员服务

25+阅读 · 2021年1月1日

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

专知会员服务

22+阅读 · 2019年12月6日

【CCL 2019】中国计算语言学大会（CCL 2019）技术评测报告以及研讨会

【CCL 2019】中国计算语言学大会（CCL 2019）技术评测报告以及研讨会

专知会员服务

18+阅读 · 2019年11月11日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

GAN生成式对抗网络

34+阅读 · 2019年9月23日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

机器之心

26+阅读 · 2019年9月15日

SFFAI 31 报名通知 | 情感语音识别与合成

SFFAI 31 报名通知 | 情感语音识别与合成

人工智能前沿讲习班

17+阅读 · 2019年5月30日

南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源

南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源

极市平台

17+阅读 · 2019年5月10日

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

极市平台

19+阅读 · 2019年4月18日

SMP2019中文人机对话技术评测（ECDT）报名开始啦

SMP2019中文人机对话技术评测（ECDT）报名开始啦

哈工大SCIR

15+阅读 · 2019年4月17日

[评测报名] 中国计算语言学大会（CCL 2018）技术评测任务发布

[评测报名] 中国计算语言学大会（CCL 2018）技术评测任务发布

哈工大SCIR

16+阅读 · 2018年5月3日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于格型结构与CS理论的高效数字系统设计与实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高速相干光OFDM通信系统基于Viterbi算法最大似然序列检测的噪声补偿算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于声光光谱成像的反激光窃听告警系统关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

SpokenUS: A Spoken User Simulator for Task-Oriented Dialogue

Arxiv

0+阅读 · 3月17日

Real-Time Sign Language Gestures to Speech Transcription using Deep Learning

Arxiv

0+阅读 · 2月23日

CosyAccent: Duration-Controllable Accent Normalization Using Source-Synthesis Training Data

Arxiv

0+阅读 · 2月22日

Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model

Arxiv

0+阅读 · 2月11日

ECHO: An Open Research Platform for Evaluation of Chat, Human Behavior, and Outcomes

Arxiv

0+阅读 · 2月10日

Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities

Arxiv

0+阅读 · 2月6日

EDNet: A Versatile Speech Enhancement Framework with Gating Mamba Mechanism and Phase Shift-Invariant Training

Arxiv

0+阅读 · 2月4日

The ICASSP 2026 HumDial Challenge: Benchmarking Human-like Spoken Dialogue Systems in the LLM Era

Arxiv

0+阅读 · 2月4日

The SJTU X-LANCE Lab System for MSR Challenge 2025

Arxiv

0+阅读 · 2月4日

LIWhiz: A Non-Intrusive Lyric Intelligibility Prediction System for the Cadenza Challenge

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

1+阅读 · 今天15:43

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

1+阅读 · 今天15:41

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

1+阅读 · 今天15:37

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

1+阅读 · 今天15:35

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

6+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

13+阅读 · 5月29日

相关VIP内容

【CUHK博士论文】提升自动语音识别系统的效率与可靠性

【CUHK博士论文】提升自动语音识别系统的效率与可靠性

专知会员服务

11+阅读 · 2025年4月15日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

最新! 语音顶级会议ICASSP2022最佳论文出炉, 美国范德堡大学和澳大利亚国立大学等获最佳论文,中科院LSEC等获最佳学生

最新! 语音顶级会议ICASSP2022最佳论文出炉, 美国范德堡大学和澳大利亚国立大学等获最佳论文,中科院LSEC等获最佳学生

专知会员服务

19+阅读 · 2022年5月28日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

【ICML2021】基于标记和未标记数据的统一语音表示学习

专知会员服务

10+阅读 · 2021年7月28日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

达摩院基于元学习的对话系统

达摩院基于元学习的对话系统

专知会员服务

25+阅读 · 2021年1月1日

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

专知会员服务

22+阅读 · 2019年12月6日

【CCL 2019】中国计算语言学大会（CCL 2019）技术评测报告以及研讨会

【CCL 2019】中国计算语言学大会（CCL 2019）技术评测报告以及研讨会

专知会员服务

18+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

GAN生成式对抗网络

34+阅读 · 2019年9月23日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

机器之心

26+阅读 · 2019年9月15日

SFFAI 31 报名通知 | 情感语音识别与合成

SFFAI 31 报名通知 | 情感语音识别与合成

人工智能前沿讲习班

17+阅读 · 2019年5月30日

南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源

南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源

极市平台

17+阅读 · 2019年5月10日

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

极市平台

19+阅读 · 2019年4月18日

SMP2019中文人机对话技术评测（ECDT）报名开始啦

SMP2019中文人机对话技术评测（ECDT）报名开始啦

哈工大SCIR

15+阅读 · 2019年4月17日

[评测报名] 中国计算语言学大会（CCL 2018）技术评测任务发布

[评测报名] 中国计算语言学大会（CCL 2018）技术评测任务发布

哈工大SCIR

16+阅读 · 2018年5月3日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

相关论文

SpokenUS: A Spoken User Simulator for Task-Oriented Dialogue

Arxiv

0+阅读 · 3月17日

Real-Time Sign Language Gestures to Speech Transcription using Deep Learning

Arxiv

0+阅读 · 2月23日

CosyAccent: Duration-Controllable Accent Normalization Using Source-Synthesis Training Data

Arxiv

0+阅读 · 2月22日

Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model

Arxiv

0+阅读 · 2月11日

ECHO: An Open Research Platform for Evaluation of Chat, Human Behavior, and Outcomes

Arxiv

0+阅读 · 2月10日

Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities

Arxiv

0+阅读 · 2月6日

EDNet: A Versatile Speech Enhancement Framework with Gating Mamba Mechanism and Phase Shift-Invariant Training

Arxiv

0+阅读 · 2月4日

The ICASSP 2026 HumDial Challenge: Benchmarking Human-like Spoken Dialogue Systems in the LLM Era

Arxiv

0+阅读 · 2月4日

The SJTU X-LANCE Lab System for MSR Challenge 2025

Arxiv

0+阅读 · 2月4日

LIWhiz: A Non-Intrusive Lyric Intelligibility Prediction System for the Cadenza Challenge

Arxiv

0+阅读 · 1月30日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于格型结构与CS理论的高效数字系统设计与实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高速相干光OFDM通信系统基于Viterbi算法最大似然序列检测的噪声补偿算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于声光光谱成像的反激光窃听告警系统关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员