A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks

This paper audits benchmark evaluation in clinical-interview depression detection through four complementary probes across DAIC/E-DAIC, CMDC, ANDROIDS, MODMA, and PDCH. First, we re-evaluate E-DAIC under strict subject-disjoint leave-one-subject-out cross-validation. A lightweight hybrid text-plus-LLM-score model reaches macro-F1 = 0.723 - the highest reported under this protocol, to our knowledge - providing a conservative out-of-fold reference point that does not depend on the privileged official holdout. Second, we test whether the E-DAIC official split supports fine-grained leaderboard rankings by sweeping 96 model configurations across modality bundles, pooling strategies, and learners. Development-side cross-validation and official-test rankings align only moderately: the best cross-validation configuration ranks twentieth on the official test, the official-test winner ranks forty-first by cross-validation, top-3 overlap is zero, and the apparent winner is rank-1 in only 32.3% of subject bootstraps. Third, we externally validate strong public CMDC and ANDROIDS baselines that achieve near-ceiling in-domain performance. Zero-shot transfer to external corpora is substantially weaker. Finally, we stress-test E-DAIC text and audio models using paired symptom-dense versus symptom-light interview slices defined by an SRDS-based annotator. Text scores rise sharply on symptom-dense slices, whereas audio scores remain nearly flat; the text-minus-audio gap is positive across all five seeds.

翻译：本文通过针对DAIC/E-DAIC、CMDC、ANDROIDS、MODMA和PDCH五个数据集的四项互补探针，对临床访谈抑郁检测中的基准评估进行了审计。首先，我们在严格的严格受试者不重叠的留一受试者交叉验证下重新评估了E-DAIC。一种轻量级文本加LLM分数混合模型达到了宏F1值为0.723——据我们所知，这是该协议下的最高报告结果——提供了一个不依赖于特权官方保留集的保守折外参考点。其次，我们通过扫描96种跨模态组合、池化策略和学习器的模型配置，测试了E-DAIC官方划分是否支持细粒度排行榜排名。开发侧交叉验证与官方测试排名仅呈现中等程度对齐：最佳交叉验证配置在官方测试中排名第二十，官方测试胜出者在交叉验证中排名第四十一，前三名重叠为零，且表观胜出者在32.3%的受试者自助抽样中仅位列第一。第三，我们对在领域内达到接近天花板性能的强公开CMDC和ANDROIDS基线进行了外部验证。向外部语料库的零样本迁移表现显著较弱。最后，我们使用基于SRDS的标注器定义的症状密集与症状稀疏成对访谈片段，对E-DAIC文本和音频模型进行了压力测试。文本分数在症状密集片段上急剧上升，而音频分数几乎持平；在所有五个随机种子下，文本减去音频的差值均为正。

相关内容

交叉验证

关注 2

交叉验证，有时也称为旋转估计或样本外测试，是用于评估统计结果如何的各种类似模型验证技术中的任何一种分析将概括为一个独立的数据集。它主要用于设置，其目的是预测，和一个想要估计如何准确地一个预测模型在实践中执行。在预测问题中，通常会给模型一个已知数据的数据集，在该数据集上进行训练（训练数据集）以及未知数据（或首次看到的数据）的数据集（根据该数据集测试模型）（称为验证数据集或测试集）。交叉验证的目标是测试模型预测未用于估计数据的新数据的能力，以发现诸如过度拟合或选择偏倚之类的问题，并提供有关如何进行建模的见解。该模型将推广到一个独立的数据集（例如，未知数据集，例如来自实际问题的数据集）。一轮交叉验证涉及分割一个样品的数据到互补的子集，在一个子集执行所述分析（称为训练集），以及验证在另一子集中的分析（称为验证集合或测试集）。为了减少可变性，在大多数方法中，使用不同的分区执行多轮交叉验证，并将验证结果组合（例如取平均值）在各轮中，以估计模型的预测性能。总而言之，交叉验证结合了预测中适用性的度量（平均），以得出模型预测性能的更准确估计。

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

专知会员服务

19+阅读 · 2024年6月26日

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

数据挖掘顶会CIKM2021最佳论文出炉！CWRU图神经网络过度处方获最佳论文！WPI-深度迁移抑郁筛查获最佳应用论文

专知会员服务

32+阅读 · 2021年11月6日

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

59+阅读 · 2020年6月24日