Speech is a scalable and non-invasive biomarker for early mental health screening. However, widely used depression datasets like DAIC-WOZ exhibit strong coupling between linguistic sentiment and diagnostic labels, encouraging models to learn semantic shortcuts. As a result, model robustness may be compromised in real-world scenarios, such as Camouflaged Depression, where individuals maintain socially positive or neutral language despite underlying depressive states. To mitigate this semantic bias, we propose DepFlow, a three-stage depression-conditioned text-to-speech framework. First, a Depression Acoustic Encoder learns speaker- and content-invariant depression embeddings through adversarial training, achieving effective disentanglement while preserving depression discriminability (ROC-AUC: 0.693). Second, a flow-matching TTS model with FiLM modulation injects these embeddings into synthesis, enabling control over depressive severity while preserving content and speaker identity. Third, a prototype-based severity mapping mechanism provides smooth and interpretable manipulation across the depression continuum. Using DepFlow, we construct a Camouflage Depression-oriented Augmentation (CDoA) dataset that pairs depressed acoustic patterns with positive/neutral content from a sentiment-stratified text bank, creating acoustic-semantic mismatches underrepresented in natural data. Evaluated across three depression detection architectures, CDoA improves macro-F1 by 9%, 12%, and 5%, respectively, consistently outperforming conventional augmentation strategies in depression Detection. Beyond enhancing robustness, DepFlow provides a controllable synthesis platform for conversational systems and simulation-based evaluation, where real clinical data remains limited by ethical and coverage constraints.


翻译:语音是一种可扩展且非侵入性的生物标志物,适用于早期心理健康筛查。然而,广泛使用的抑郁症数据集(如DAIC-WOZ)在语言情感与诊断标签之间表现出强耦合性,促使模型学习语义捷径。这可能导致模型在现实场景(如伪装性抑郁症)中的鲁棒性受损,因为此类个体尽管处于潜在的抑郁状态,仍会维持社会正面或中性的语言表达。为缓解这种语义偏见,我们提出DepFlow,一个三阶段的抑郁症条件文本到语音生成框架。首先,抑郁症声学编码器通过对抗训练学习说话人和内容不变的抑郁症嵌入,在保持抑郁症判别能力(ROC-AUC:0.693)的同时实现有效解耦。其次,采用FiLM调制的流匹配TTS模型将这些嵌入注入合成过程,从而在控制抑郁严重程度的同时保持内容和说话人身份。第三,基于原型的严重程度映射机制提供了跨抑郁症连续体的平滑且可解释的操控能力。利用DepFlow,我们构建了一个面向伪装性抑郁症的增强数据集(CDoA),该数据集将抑郁声学模式与来自情感分层文本库的正面/中性内容配对,创造了自然数据中代表性不足的声学-语义错配。在三种抑郁症检测架构上的评估表明,CDoA分别将宏平均F1分数提高了9%、12%和5%,在抑郁症检测任务中持续优于传统增强策略。除增强鲁棒性外,DepFlow还为对话系统和基于仿真的评估提供了一个可控的合成平台,在这些领域中,真实的临床数据仍受限于伦理和覆盖范围的约束。

0
下载
关闭预览

相关内容

【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员