Reliable automatic seizure detection from long-term electroencephalography (EEG) remains an unsolved challenge, as current models often fail to generalize across patients or clinical settings. Manual EEG review still is the standard of care, highlighting the need for robust models and standardized evaluation. The current literature often reports high efficacy, yet these models frequently fail when deployed to unseen patient populations. To rigorously assess this generalization gap, we conducted a large-scale empirical study evaluating 28 state-of-the-art algorithmic architectures, ranging from classical feature engineering to modern Deep Learning. These algorithms were collected by organizing a competition. A strictly held-out private dataset of continuous EEG recordings from 65 subjects, totaling 4,360 hours of data, was utilized to evaluate algorithm performance. Expert neurophysiologists annotated these recordings, establishing the ground truth for seizure events. Algorithms were evaluated using event-based metrics from the SzCORE framework, including sensitivity, precision, F1-score, and false positive rate per day. Results revealed significant performance variability among state-of-the-art approaches, with the top F1 score of 32% (sensitivity 37%, precision 29%), highlighting the persistent difficulty of this task. Analysis uncovered a discordance between peak performance and population-level stability. The algorithms achieving the highest aggregate F1-scores did not achieve the most consistent ranking across subjects. This independent evaluation exposed a notable gap between self-reported efficacies and hold-out performance, underscoring the critical need for standardized, rigorous benchmarking. The evaluation infrastructure transitions into a continuously open benchmarking platform, fostering reproducible research and accelerating robust seizure detection algorithm development.


翻译:从长程脑电图(EEG)中实现可靠的自动癫痫检测仍是一项未解决的挑战,因为当前模型往往无法在患者或临床场景间泛化。手动EEG审查仍是护理标准,这凸显了对稳健模型与标准化评估的需求。现有文献常报告高有效性,但这些模型在部署至未见过的患者人群时频繁失效。为严格评估这一泛化差距,我们开展了一项大规模实证研究,评估了28种最先进的算法架构,涵盖从经典特征工程到现代深度学习的方法。这些算法通过组织竞赛收集而来。研究采用严格保留的隐私数据集,包含65名受试者的连续EEG记录(总计4360小时数据),用于评估算法性能。专家神经生理学家对这些记录进行标注,建立癫痫事件的金标准。算法基于SzCORE框架的事件级指标进行评估,包括敏感性、精确率、F1分数与每日假阳性率。结果显示,最先进方法间存在显著性能差异,最佳F1分数为32%(敏感性37%,精确率29%),凸显了该任务的持续难度。分析揭示了峰值性能与人群稳定性之间的不一致性——达到最高总体F1分数的算法并未在受试者间实现最一致的排名。这项独立评估揭示了自我报告效能与留出性能之间的显著差距,强调了标准化、严格基准测试的迫切需求。该评估基础设施已转型为持续开放的基准测试平台,旨在促进可重复研究并加速稳健癫痫检测算法的开发。

0
下载
关闭预览

相关内容

深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
基于 Transformer 的脑电解码综述询问 ChatGPT
专知会员服务
12+阅读 · 2025年7月6日
基于扩散模型的异常检测综述
专知会员服务
30+阅读 · 2025年1月23日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
26+阅读 · 2024年9月8日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
基于区域的目标检测——细粒度
计算机视觉战队
14+阅读 · 2018年2月1日
无监督学习:决策树AI异常检测
AI前线
15+阅读 · 2018年1月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员