Current approaches to detecting depression and anxiety from speech primarily rely on machine learning techniques that utilize hand-engineered paralinguistic features and related acoustic descriptors derived from time- and frequency-domain representations of speech signals. Applying deep learning methods directly to raw speech signals has the potential to produce biomarker representations with substantially greater predictive power. However, these approaches typically require large volumes of carefully annotated data to learn robust and clinically meaningful representations of the underlying biomarkers. In this paper, we describe our efforts toward developing a deep learning model trained on a large-scale proprietary dataset comprising ~65,000 utterances collected from more than 23,000 subjects representative of relevant United States demographics. We present the techniques employed and analyze their impact on model performance. Our results demonstrate that the proposed models can extract content-agnostic biomarker information, which, when combined with lexical features extracted from audio, yields improved predictive performance in production settings. Our models are evaluated on ~5000 unique subjects and achieve performance of 71% in terms of sensitivity and specificity. To foster further research in mental health assessment from speech, we release the best-performing model described in this paper on HuggingFace.


翻译:[翻译摘要] 当前从语音中检测抑郁和焦虑的方法主要依赖机器学习技术,这些技术利用手工工程化的副语言特征及从语音信号的时域和频域表示中导出的相关声学描述符。将深度学习方法直接应用于原始语音信号,有可能生成预测能力更强的生物标志物表示。然而,这些方法通常需要大量精心标注的数据来学习鲁棒且具有临床意义的底层生物标志物表示。本文描述了我们在开发深度学习模型方面的工作,该模型基于大规模专有数据集进行训练,该数据集包含来自23,000余名受试者的约65,000条语音样本,这些受试者代表了美国相关人口统计学特征。我们介绍了所采用的技术并分析了其对模型性能的影响。结果表明,所提模型能够提取内容无关的生物标志物信息;当这些信息与从音频中提取的词汇特征相结合时,可在实际生产环境中提升预测性能。我们在约5,000名独立受试者上评估模型,实现了71%的灵敏度和特异度性能。为促进语音心理健康评估领域的研究,我们将本文描述的最佳性能模型发布在HuggingFace平台上。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
国家标准《人工智能深度学习算法评估》(征求意见稿)
《用于语音取证和高超音速飞行器应用的机器学习》200页
构建基于生物医学文献的抑郁症知识图谱
专知会员服务
12+阅读 · 2022年11月14日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
54+阅读 · 2022年8月31日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
苦尽甘来:AI为更有效地治疗抑郁症带来希望
英伟达NVIDIA中国
10+阅读 · 2018年3月1日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员