We conducted a reproducibility-oriented re-evaluation of prior migraine classification studies, correcting for data leakage and metric bias. We then introduced (i) a clinically motivated aggregation of two hemiplegic subtypes following ICHD-3 §1.2.3, (ii) a class-dependent hybrid augmentation strategy that assigns generation methods based on per-class sample size, and (iii) the concept of fidelity asymmetry, motivating proportionally constrained growth as an alternative to full class balance. Experiments were performed on a dataset of 400 patients across seven migraine subtypes under a two-stage protocol, including the six-class configuration described above. Models were evaluated using stratified 5-fold cross-validation with macro-averaged F1 as the primary metric. Correcting methodological flaws reduces previously inflated performance estimates, with the corrected macro-F1 baseline standing at 0.71. The proposed framework consistently outperformed individual augmenters in macro-F1 averaged across the eight evaluated classifiers (0.862 vs. 0.836 for Gaussian Copula, 0.815 for CTGAN, and 0.801 for the no-augmentation baseline), and achieved its peak result of 0.914 with FT-Transformer under proportional augmentation. The no-augmentation FT-Transformer baseline (0.896) shows that, at the per-classifier ceiling, clinically motivated class aggregation accounts for most of the absolute improvement; the framework's principal measurable contribution is the gain in average robustness across classifiers, highlighting the dominant role of problem formulation.


翻译:我们以可重复性为导向重新评估了既往偏头痛分类研究,针对数据泄露与指标偏差进行了校正。随后提出:(i)依据ICHD-3 §1.2.3标准对两种偏瘫亚型进行临床驱动的聚合;(ii)基于类别样本量分配生成方法的类别依赖混合增强策略;(iii)保真度不对称性概念,提出按比例约束增长替代完全类别平衡。实验基于包含400名患者、涵盖七种偏头痛亚型的数据集,采用两阶段方案(含上述六类别配置)进行。模型通过分层五折交叉验证评估,以宏平均F1为主要指标。纠正方法论缺陷后,原始高估的性能估算值得以修正,校正后的宏F1基线为0.71。在八种评估分类器中,所提框架的宏平均F1始终优于单一增强方法(0.862 vs 高斯Copula的0.836、CTGAN的0.815及无增强基线的0.801),并在比例增强条件下以FT-Transformer达到峰值0.914。无增强FT-Transformer基线(0.896)表明,在分类器性能天花板附近,临床驱动的类别聚合贡献了大部分绝对改进;该框架的主要可量化贡献在于提升跨分类器的平均鲁棒性,凸显了问题定义的主导作用。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题
专知会员服务
18+阅读 · 2024年7月21日
专知会员服务
38+阅读 · 2021年3月29日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
79+阅读 · 2020年5月24日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关资讯
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员