We target passive dementia screening from short camera-facing talking head video, developing a facial temporal micro dynamics analysis for language free detection of early neuro cognitive change. This enables unscripted, in the wild video analysis at scale to capture natural facial behaviors, transferrable across devices, topics, and cultures without active intervention by clinicians or researchers during recording. Most existing resources prioritize speech or scripted interviews, limiting use outside clinics and coupling predictions to language and transcription. In contrast, we identify and analyze whether temporal facial kinematics, including blink dynamics, small mouth jaw motions, gaze variability, and subtle head adjustments, are sufficient for dementia screening without speech or text. By stabilizing facial signals, we convert these micro movements into interpretable facial microdynamic time series, smooth them, and summarize short windows into compact clip level statistics for screening. Each window is encoded by its activity mix (the relative share of motion across streams), thus the predictor analyzes the distribution of motion across streams rather than its magnitude, making per channel effects transparent. We also introduce YT DemTalk, a new dataset curated from publicly available, in the wild camera facing videos. It contains 300 clips (150 with self reported dementia, 150 controls) to test our model and offer a first benchmarking of the corpus. On YT DemTalk, ablations identify gaze lability and mouth/jaw dynamics as the most informative cues, and light weighted shallow classifiers could attain a dementia prediction performance of (AUROC) 0.953, 0.961 Average Precision (AP), 0.851 F1-score, and 0.857 accuracy.


翻译:本研究旨在通过短时摄像头拍摄的说话头部视频实现被动式痴呆筛查,开发了一种面部时序微动态分析方法,用于无需语言参与的早期神经认知变化检测。该方法支持对非脚本化、野外拍摄的大规模视频进行分析,以捕捉自然的面部行为,且无需临床医生或研究者在录制过程中主动干预,可跨设备、话题和文化进行迁移。现有资源大多侧重于语音或脚本化访谈,限制了在诊所外的应用,并将预测结果与语言及转录文本耦合。相比之下,我们探究并分析了时序面部运动学特征(包括眨眼动态、细微的口颌运动、注视变异性和微小的头部调整)是否足以在不依赖语音或文本的情况下进行痴呆筛查。通过稳定面部信号,我们将这些微动作转化为可解释的面部微动态时间序列,对其进行平滑处理,并将短时窗口汇总为紧凑的片段级统计量用于筛查。每个窗口通过其活动混合(即各运动通道的相对占比)进行编码,因此预测器分析的是运动在各通道间的分布而非其幅度,使得单通道效应透明化。我们还引入了YT DemTalk数据集,该数据集从公开可获取的野外拍摄视频中整理而成,包含300个片段(150个自我报告痴呆案例,150个对照组),用于测试我们的模型并为该语料库提供首次基准评估。在YT DemTalk上,消融实验确定注视不稳定性和口颌动态为最具信息量的线索,轻量级浅层分类器可实现痴呆预测性能:曲线下面积(AUROC)0.953,平均精度(AP)0.961,F1分数0.851,准确率0.857。

0
下载
关闭预览

相关内容

专知会员服务
20+阅读 · 2021年3月18日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员