Parkinson's disease (PD) is a progressive neurodegenerative disorder that frequently causes speech impairments associated with hypokinetic dysarthria. As speech production relies on the precise coordination of complex neuromuscular mechanisms, speech analysis has emerged as a promising non-invasive and cost-effective biomarker for early PD detection. Recent deep learning approaches have shown encouraging results; however, most existing methods rely on a single speech representation, potentially overlooking complementary pathological information encoded across different feature spaces. In this work, we propose a multi-branch deep learning framework for automatic PD detection from speech. Each recording is segmented into 5-second chunks and represented using three complementary modalities: Log-Mel spectrograms, MFCCs, and HuBERT embeddings extracted from raw waveforms. The spectrograms are processed using a pre-trained ResNet-18 encoder, MFCC sequences are modeled through a BiLSTM network, and raw speech is encoded using a pre-trained HuBERT model. To effectively integrate these heterogeneous representations, we introduce a context-guided cross-modal attention mechanism that dynamically weights temporal HuBERT embeddings according to the global acoustic context derived from the spectrogram and MFCC branches. Experiments conducted on the publicly available Spanish PC-GITA corpus under strict speaker-independent 5-fold cross-validation demonstrate the effectiveness of the proposed approach. The proposed architecture achieves an accuracy of 91.51%, an F1-score of 91.24%, and an AUC of 95.97%. Furthermore, ablation studies confirm the contribution of both the proposed context-guided cross-modal attention mechanism and the integration of complementary speech representations. These findings highlight the potential of heterogeneous speech modeling for robust and clinically reliable PD detection.


翻译:帕金森病(PD)是一种进行性神经退行性疾病,常导致与运动减退性构音障碍相关的言语障碍。由于言语产生依赖于复杂神经肌肉机制的精确协调,语音分析已成为一种有前景的非侵入性、低成本生物标志物,用于早期PD检测。最近的深度学习方法取得了令人鼓舞的结果;然而,现有方法大多依赖单一语音表示,可能忽略不同特征空间中编码的互补病理信息。在本工作中,我们提出了一种用于从语音中自动检测PD的多分支深度学习框架。每个录音被分割为5秒长度的片段,并使用三种互补模态表示:对数梅尔频谱图、MFCC和从原始波形中提取的HuBERT嵌入。频谱图通过预训练的ResNet-18编码器处理,MFCC序列通过BiLSTM网络建模,原始语音则通过预训练的HuBERT模型编码。为有效整合这些异质表示,我们引入了一种上下文引导的跨模态注意力机制,该机制根据从频谱图和MFCC分支中提取的全局声学上下文,动态加权时间维度的HuBERT嵌入。在公开的西班牙语PC-GITA语料库上,采用严格说话人独立的五折交叉验证,实验证明了所提方法的有效性。该架构达到了91.51%的准确率、91.24%的F1分数和95.97%的AUC值。此外,消融研究证实了所提出的上下文引导的跨模态注意力机制以及互补语音表示整合的贡献。这些发现凸显了异质语音建模在稳健且临床可靠的PD检测中的潜力。

0
下载
关闭预览

相关内容

【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
【斯坦福博士论文】在语言模型融合多模态知识,225页pdf
【CMU博士论文】多视图上下文理解的知识增强表示学习
专知会员服务
35+阅读 · 2022年8月11日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员