Mixture of Experts for Recognizing Depression from Interview and Reading Tasks - 专知论文

会员服务 ·

0

识别 · 混合 · 融合 · 混合模型 · 多模 ·

Mixture of Experts for Recognizing Depression from Interview and Reading Tasks

翻译：面向访谈与朗读任务的抑郁识别专家混合模型

Loukas Ilias,Dimitris Askounis

from arxiv, Accepted at ICASSP 2026

Depression is a mental disorder and can cause a variety of symptoms, including psychological, physical, and social. Speech has been proved an objective marker for the early recognition of depression. For this reason, many studies have been developed aiming to recognize depression through speech. However, existing methods rely on the usage of only the spontaneous speech neglecting information obtained via read speech, use transcripts which are often difficult to obtain (manual) or come with high word-error rates (automatic), and do not focus on input-conditional computation methods. To resolve these limitations, this is the first study in depression recognition task obtaining representations of both spontaneous and read speech, utilizing multimodal fusion methods, and employing Mixture of Experts (MoE) models in a single deep neural network. Specifically, we use audio files corresponding to both interview and reading tasks and convert each audio file into log-Mel spectrogram, delta, and delta-delta. Next, the image representations of the two tasks pass through shared AlexNet models. The outputs of the AlexNet models are given as input to a multimodal fusion method. The resulting vector is passed through a MoE module. In this study, we employ three variants of MoE, namely sparsely-gated MoE and multilinear MoE based on factorization. Findings suggest that our proposed approach yields an Accuracy and F1-score of 87.00% and 86.66% respectively on the Androids corpus.

翻译：抑郁是一种精神障碍，可引发心理、生理及社交等多类症状。语音已被证明是早期识别抑郁症的客观标志物，因此大量研究致力于通过语音进行抑郁识别。然而，现有方法仅使用自发性语音而忽略了朗读语音中的信息，依赖通常难以获取（人工处理）或伴随高词错误率（自动处理）的转录文本，且未关注输入条件化计算方法。为解决上述局限，本研究首次在抑郁识别任务中同时获取自发性语音与朗读语音的表征，采用多模态融合方法，并在单一深度神经网络中引入专家混合（MoE）模型。具体而言，我们使用对应访谈任务与朗读任务的音频文件，将每个音频文件转换为对数梅尔频谱图、Delta与Delta-Delta特征。随后，两个任务的图像表征通过共享的AlexNet模型处理，其输出作为多模态融合方法的输入，融合后的向量经MoE模块处理。本研究采用三种MoE变体：基于稀疏门控的MoE与基于分解的多线性MoE。实验结果表明，所提方法在Android语料库上分别达到87.00%的准确率与86.66%的F1分数。

0

相关内容

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

专知会员服务

13+阅读 · 5月22日

情感推荐系统综述：面向个性化的态度、情绪与情境建模

情感推荐系统综述：面向个性化的态度、情绪与情境建模

专知会员服务

17+阅读 · 2025年8月29日

多模态对话情感识别：方法、趋势、挑战与前景综述

多模态对话情感识别：方法、趋势、挑战与前景综述

专知会员服务

20+阅读 · 2025年5月28日

大型语言模型遇上文本中心的多模态情感分析：综述

大型语言模型遇上文本中心的多模态情感分析：综述

专知会员服务

25+阅读 · 2024年6月13日

构建基于生物医学文献的抑郁症知识图谱

构建基于生物医学文献的抑郁症知识图谱

专知会员服务

12+阅读 · 2022年11月14日

【复旦大学等】情感计算的系统综述:情感模型、数据库及研究进展，A Systematic Review on Affective Computing: Emotion Models, Databases, and Recent Advances

【复旦大学等】情感计算的系统综述:情感模型、数据库及研究进展，A Systematic Review on Affective Computing: Emotion Models, Databases, and Recent Advances

专知会员服务

55+阅读 · 2022年3月17日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

《深度学习中神经注意力模型》综述论文

《深度学习中神经注意力模型》综述论文

专知会员服务

115+阅读 · 2021年12月15日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知会员服务

170+阅读 · 2020年12月21日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

基于LSTM模型的学生反馈文本学业情绪识别方法

基于LSTM模型的学生反馈文本学业情绪识别方法

MOOC

17+阅读 · 2019年5月18日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

专知

24+阅读 · 2018年3月31日

苦尽甘来：AI为更有效地治疗抑郁症带来希望

苦尽甘来：AI为更有效地治疗抑郁症带来希望

英伟达NVIDIA中国

10+阅读 · 2018年3月1日

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

专知

55+阅读 · 2018年1月28日

就喜欢看综述论文：情感分析中的深度学习

就喜欢看综述论文：情感分析中的深度学习

机器之心

13+阅读 · 2018年1月26日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

应用宏基因组学探讨抑郁症肝郁乘脾的发生机制

国家自然科学基金

0+阅读 · 2015年12月31日

抑郁症患者及一级亲属奖励与惩罚处理神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

海马有髓神经纤维脱髓鞘在抑郁症中的作用

国家自然科学基金

0+阅读 · 2015年12月31日

应用多模态fMRI探讨交泰丸治疗抑郁症患者的脑机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

阈下情绪启动影响正常人及分裂型特质个体情绪判断的神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

儿童期创伤与抑郁症发生的易感性和保护性神经网络机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络模型的青年癌症患者心理痛苦预警与标准化沟通系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

精细亚区尺度难治性抑郁症异常神经环路的多模态MRI解析

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

光遗传学选择性调控睡眠时相对小鼠抑郁样表现的影响及机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

Reading between the Lines: Leveraging Large Language Models for Global Dementia and Depression Assessment from Clinical Interviews

Arxiv

0+阅读 · 6月16日

Fine-tuning LLMs for Passive Depression Severity Estimation from AI Mental Health Dialogue

Arxiv

0+阅读 · 6月16日

Deep Temporal Modeling and Ensemble Fusion for Multimodal Emotion Recognition from Physiological Signals

Arxiv

0+阅读 · 6月12日

Emotional regulation improves deep learning-based image classification

Arxiv

0+阅读 · 6月11日

LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

Arxiv

0+阅读 · 6月11日

Dep-LLM: Training-Free Depression Diagnosis via Evidence-Guided Structured Multi-factor with Reliable LLM Reasoning

Arxiv

0+阅读 · 6月9日

Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention

Arxiv

0+阅读 · 6月8日

A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning

Arxiv

0+阅读 · 5月25日

MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention

Arxiv

0+阅读 · 5月16日

Voice Biomarkers for Depression and Anxiety

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

专知会员服务

13+阅读 · 5月22日

情感推荐系统综述：面向个性化的态度、情绪与情境建模

情感推荐系统综述：面向个性化的态度、情绪与情境建模

专知会员服务

17+阅读 · 2025年8月29日

多模态对话情感识别：方法、趋势、挑战与前景综述

多模态对话情感识别：方法、趋势、挑战与前景综述

专知会员服务

20+阅读 · 2025年5月28日

大型语言模型遇上文本中心的多模态情感分析：综述

大型语言模型遇上文本中心的多模态情感分析：综述

专知会员服务

25+阅读 · 2024年6月13日

构建基于生物医学文献的抑郁症知识图谱

构建基于生物医学文献的抑郁症知识图谱

专知会员服务

12+阅读 · 2022年11月14日

【复旦大学等】情感计算的系统综述:情感模型、数据库及研究进展，A Systematic Review on Affective Computing: Emotion Models, Databases, and Recent Advances

【复旦大学等】情感计算的系统综述:情感模型、数据库及研究进展，A Systematic Review on Affective Computing: Emotion Models, Databases, and Recent Advances

专知会员服务

55+阅读 · 2022年3月17日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

《深度学习中神经注意力模型》综述论文

《深度学习中神经注意力模型》综述论文

专知会员服务

115+阅读 · 2021年12月15日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知会员服务

170+阅读 · 2020年12月21日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

基于LSTM模型的学生反馈文本学业情绪识别方法

基于LSTM模型的学生反馈文本学业情绪识别方法

MOOC

17+阅读 · 2019年5月18日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

专知

24+阅读 · 2018年3月31日

苦尽甘来：AI为更有效地治疗抑郁症带来希望

苦尽甘来：AI为更有效地治疗抑郁症带来希望

英伟达NVIDIA中国

10+阅读 · 2018年3月1日

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

专知

55+阅读 · 2018年1月28日

就喜欢看综述论文：情感分析中的深度学习

就喜欢看综述论文：情感分析中的深度学习

机器之心

13+阅读 · 2018年1月26日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

相关论文

Reading between the Lines: Leveraging Large Language Models for Global Dementia and Depression Assessment from Clinical Interviews

Arxiv

0+阅读 · 6月16日

Fine-tuning LLMs for Passive Depression Severity Estimation from AI Mental Health Dialogue

Arxiv

0+阅读 · 6月16日

Deep Temporal Modeling and Ensemble Fusion for Multimodal Emotion Recognition from Physiological Signals

Arxiv

0+阅读 · 6月12日

Emotional regulation improves deep learning-based image classification

Arxiv

0+阅读 · 6月11日

LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

Arxiv

0+阅读 · 6月11日

Dep-LLM: Training-Free Depression Diagnosis via Evidence-Guided Structured Multi-factor with Reliable LLM Reasoning

Arxiv

0+阅读 · 6月9日

Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention

Arxiv

0+阅读 · 6月8日

A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning

Arxiv

0+阅读 · 5月25日

MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention

Arxiv

0+阅读 · 5月16日

Voice Biomarkers for Depression and Anxiety

Arxiv

0+阅读 · 5月11日

相关基金

应用宏基因组学探讨抑郁症肝郁乘脾的发生机制

国家自然科学基金

0+阅读 · 2015年12月31日

抑郁症患者及一级亲属奖励与惩罚处理神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

海马有髓神经纤维脱髓鞘在抑郁症中的作用

国家自然科学基金

0+阅读 · 2015年12月31日

应用多模态fMRI探讨交泰丸治疗抑郁症患者的脑机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

阈下情绪启动影响正常人及分裂型特质个体情绪判断的神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

儿童期创伤与抑郁症发生的易感性和保护性神经网络机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络模型的青年癌症患者心理痛苦预警与标准化沟通系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

精细亚区尺度难治性抑郁症异常神经环路的多模态MRI解析

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

光遗传学选择性调控睡眠时相对小鼠抑郁样表现的影响及机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员