Benign laryngeal voice disorders affect nearly one in five individuals and often manifest as dysphonia, while also serving as non-invasive indicators of broader physiological dysfunction. We introduce a clinically inspired hierarchical machine learning framework for automated classification of eight benign voice disorders alongside healthy controls, using acoustic features extracted from short, sustained vowel phonations. Experiments utilized 15,132 recordings from 1,261 speakers in the Saarbruecken Voice Database, covering vowels /a/, /i/, and /u/ at neutral, high, low, and gliding pitches. Mirroring clinical triage workflows, the framework operates in three sequential stages: Stage 1 performs binary screening of pathological versus non-pathological voices by integrating convolutional neural network-derived mel-spectrogram features with 21 interpretable acoustic biomarkers; Stage 2 stratifies voices into Healthy, Functional or Psychogenic, and Structural or Inflammatory groups using a cubic support vector machine; Stage 3 achieves fine-grained classification by incorporating probabilistic outputs from prior stages, improving discrimination of structural and inflammatory disorders relative to functional conditions. The proposed system consistently outperformed flat multi-class classifiers and pre-trained self-supervised models, including META HuBERT and Google HeAR, whose generic objectives are not optimized for sustained clinical phonation. By combining deep spectral representations with interpretable acoustic features, the framework enhances transparency and clinical alignment. These results highlight the potential of quantitative voice biomarkers as scalable, non-invasive tools for early screening, diagnostic triage, and longitudinal monitoring of vocal health.


翻译:良性喉部嗓音障碍影响近五分之一人群,常表现为发声障碍,同时也是更广泛生理功能障碍的非侵入性指标。我们提出一种临床启发的分层机器学习框架,利用从短时持续性元音发音中提取的声学特征,实现对八种良性嗓音障碍及健康对照的自动分类。实验采用萨尔布吕肯嗓音数据库中1,261名说话者的15,132条录音,涵盖中性、高、低及滑音四种音高下的元音/a/、/i/和/u/。该框架模拟临床分诊流程,按序执行三个阶段:第一阶段通过融合卷积神经网络提取的梅尔频谱图特征与21个可解释声学生物标志物,实现病理性与非病理性嗓音的二元筛查;第二阶段采用三次支持向量机将嗓音分层为健康组、功能性或心因性组、结构性或炎症性组;第三阶段通过整合前序阶段的概率输出实现细粒度分类,提升结构性/炎症性障碍相对于功能性疾病的鉴别能力。所提系统在各项指标上均优于平面多分类器及预训练自监督模型(包括META HuBERT和Google HeAR),这些通用模型的训练目标未针对持续性临床发音进行优化。通过结合深度频谱表征与可解释声学特征,该框架增强了透明度与临床契合度。研究结果凸显了定量嗓音生物标志物作为可扩展、非侵入性工具,在嗓音健康早期筛查、诊断分诊及纵向监测方面的应用潜力。

0
下载
关闭预览

相关内容

具有动能的生命体。
《基于枪击录音声学分析的枪支类型层级破译》
专知会员服务
10+阅读 · 2025年7月9日
人工智能技术在口腔正畸诊疗中的应用研究进展
专知会员服务
14+阅读 · 2022年5月1日
AI药物研发发展研究报告(附报告)
专知会员服务
91+阅读 · 2022年2月11日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
专知会员服务
38+阅读 · 2021年5月21日
【开放书】清华大学《语音识别基本法》,215页pdf
专知会员服务
150+阅读 · 2020年7月29日
语音信号处理:基本方法与前沿技术
AINLP
10+阅读 · 2020年10月14日
NLP - 15 分钟搭建中文文本分类模型
AINLP
79+阅读 · 2019年1月29日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员