Class-Dependent Hybrid Data Augmentation for Multiclass Migraine Classification under Severe Class Imbalance - 专知论文

会员服务 ·

0

类别 · motivation · 基准 · 成比例 · Performer ·

Class-Dependent Hybrid Data Augmentation for Multiclass Migraine Classification under Severe Class Imbalance

翻译：严重类别不平衡下基于类别依赖混合数据增强的多类别偏头痛分类

Elvin Somón,Miguel A. Gutiérrez-Naranjo

We conducted a reproducibility-oriented re-evaluation of prior migraine classification studies, correcting for data leakage and metric bias. We then introduced (i) a clinically motivated aggregation of two hemiplegic subtypes following ICHD-3 §1.2.3, (ii) a class-dependent hybrid augmentation strategy that assigns generation methods based on per-class sample size, and (iii) the concept of fidelity asymmetry, motivating proportionally constrained growth as an alternative to full class balance. Experiments were performed on a dataset of 400 patients across seven migraine subtypes under a two-stage protocol, including the six-class configuration described above. Models were evaluated using stratified 5-fold cross-validation with macro-averaged F1 as the primary metric. Correcting methodological flaws reduces previously inflated performance estimates, with the corrected macro-F1 baseline standing at 0.71. The proposed framework consistently outperformed individual augmenters in macro-F1 averaged across the eight evaluated classifiers (0.862 vs. 0.836 for Gaussian Copula, 0.815 for CTGAN, and 0.801 for the no-augmentation baseline), and achieved its peak result of 0.914 with FT-Transformer under proportional augmentation. The no-augmentation FT-Transformer baseline (0.896) shows that, at the per-classifier ceiling, clinically motivated class aggregation accounts for most of the absolute improvement; the framework's principal measurable contribution is the gain in average robustness across classifiers, highlighting the dominant role of problem formulation.

翻译：我们以可重复性为导向重新评估了既往偏头痛分类研究，针对数据泄露与指标偏差进行了校正。随后提出：（i）依据ICHD-3 §1.2.3标准对两种偏瘫亚型进行临床驱动的聚合；（ii）基于类别样本量分配生成方法的类别依赖混合增强策略；（iii）保真度不对称性概念，提出按比例约束增长替代完全类别平衡。实验基于包含400名患者、涵盖七种偏头痛亚型的数据集，采用两阶段方案（含上述六类别配置）进行。模型通过分层五折交叉验证评估，以宏平均F1为主要指标。纠正方法论缺陷后，原始高估的性能估算值得以修正，校正后的宏F1基线为0.71。在八种评估分类器中，所提框架的宏平均F1始终优于单一增强方法（0.862 vs 高斯Copula的0.836、CTGAN的0.815及无增强基线的0.801），并在比例增强条件下以FT-Transformer达到峰值0.914。无增强FT-Transformer基线（0.896）表明，在分类器性能天花板附近，临床驱动的类别聚合贡献了大部分绝对改进；该框架的主要可量化贡献在于提升跨分类器的平均鲁棒性，凸显了问题定义的主导作用。

0

相关内容

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

专知会员服务

10+阅读 · 2025年10月1日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题

专知会员服务

18+阅读 · 2024年7月21日

【CVPR2021】在类别不平衡的数据上施展半监督学习

专知会员服务

38+阅读 · 2021年3月29日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

79+阅读 · 2020年5月24日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【伯克利】机器学习诊断偏倚，Diagnosing bias with machine learning（附pdf链接）

【伯克利】机器学习诊断偏倚，Diagnosing bias with machine learning（附pdf链接）

专知会员服务

11+阅读 · 2019年11月30日

【IJCAI 2019 Tutorials】概念编码：深度学习的方面情感分类（Concept to Code: Aspect Sentiment Classification with Deep Learning）

【IJCAI 2019 Tutorials】概念编码：深度学习的方面情感分类（Concept to Code: Aspect Sentiment Classification with Deep Learning）

专知会员服务

24+阅读 · 2019年8月11日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

推荐：一文教你如何处理不平衡数据集（附代码）

推荐：一文教你如何处理不平衡数据集（附代码）

数据分析

20+阅读 · 2019年6月3日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

12+阅读 · 2019年6月2日

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

开放知识图谱

12+阅读 · 2019年5月26日

非平衡数据集 focal loss 多类分类

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

专知

17+阅读 · 2018年3月3日

深度学习在文本分类中的应用

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于正交级数展开的多体系统混合不确定性研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

针刺治疗偏头痛疗效差异的单核苷酸多态性相关脑功能网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

在Cre/loxP基因重组小鼠脑内植入“光控开关”建立偏头痛模型

国家自然科学基金

0+阅读 · 2014年12月31日

Imbalanced Classification under Capacity Constraints

Arxiv

0+阅读 · 6月14日

Few-shot Class-variable Incremental Audio Classification via Prototype Adaptation and Pseudo Class-variable Training

Arxiv

0+阅读 · 6月14日

Large Language Models for Imbalanced Classification: Diversity makes the difference

Arxiv

0+阅读 · 6月8日

Class Imbalance Corrections Failed to Enhance Discrimination, Model Calibration, and Prediction Stability: An Empirical Simulation Study Based on Clinical Dataset

Arxiv

0+阅读 · 6月8日

Projection Diagnostics for Directional Asymmetry and Tail-Ratio Departure in Multivariate Data

Arxiv

0+阅读 · 6月2日

Effect of Demographic Bias on Skin Lesion Classification

Arxiv

0+阅读 · 6月2日

CopulaSMOTE: A Copula-Based Oversampling Approach for Imbalanced Classification in Diabetes Prediction

Arxiv

0+阅读 · 5月25日

Mixture-of-Finite-Mixtures Wishart Model for Clustering Covariance Matrices with an Application to Brain Functional Connectivity

Arxiv

0+阅读 · 5月22日

Correcting Class Imbalance in Prior-Data Fitted Networks for Tabular Classification

Arxiv

0+阅读 · 5月20日

A Hybrid Cluster-Based Classification Model for Anomaly Detection in Unbalanced IoT Networks

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

1+阅读 · 今天14:49

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

专知会员服务

10+阅读 · 2025年10月1日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题

专知会员服务

18+阅读 · 2024年7月21日

【CVPR2021】在类别不平衡的数据上施展半监督学习

专知会员服务

38+阅读 · 2021年3月29日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

79+阅读 · 2020年5月24日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【伯克利】机器学习诊断偏倚，Diagnosing bias with machine learning（附pdf链接）

【伯克利】机器学习诊断偏倚，Diagnosing bias with machine learning（附pdf链接）

专知会员服务

11+阅读 · 2019年11月30日

【IJCAI 2019 Tutorials】概念编码：深度学习的方面情感分类（Concept to Code: Aspect Sentiment Classification with Deep Learning）

【IJCAI 2019 Tutorials】概念编码：深度学习的方面情感分类（Concept to Code: Aspect Sentiment Classification with Deep Learning）

专知会员服务

24+阅读 · 2019年8月11日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

推荐：一文教你如何处理不平衡数据集（附代码）

推荐：一文教你如何处理不平衡数据集（附代码）

数据分析

20+阅读 · 2019年6月3日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

12+阅读 · 2019年6月2日

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

开放知识图谱

12+阅读 · 2019年5月26日

非平衡数据集 focal loss 多类分类

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

专知

17+阅读 · 2018年3月3日

深度学习在文本分类中的应用

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

相关论文

Imbalanced Classification under Capacity Constraints

Arxiv

0+阅读 · 6月14日

Few-shot Class-variable Incremental Audio Classification via Prototype Adaptation and Pseudo Class-variable Training

Arxiv

0+阅读 · 6月14日

Large Language Models for Imbalanced Classification: Diversity makes the difference

Arxiv

0+阅读 · 6月8日

Class Imbalance Corrections Failed to Enhance Discrimination, Model Calibration, and Prediction Stability: An Empirical Simulation Study Based on Clinical Dataset

Arxiv

0+阅读 · 6月8日

Projection Diagnostics for Directional Asymmetry and Tail-Ratio Departure in Multivariate Data

Arxiv

0+阅读 · 6月2日

Effect of Demographic Bias on Skin Lesion Classification

Arxiv

0+阅读 · 6月2日

CopulaSMOTE: A Copula-Based Oversampling Approach for Imbalanced Classification in Diabetes Prediction

Arxiv

0+阅读 · 5月25日

Mixture-of-Finite-Mixtures Wishart Model for Clustering Covariance Matrices with an Application to Brain Functional Connectivity

Arxiv

0+阅读 · 5月22日

Correcting Class Imbalance in Prior-Data Fitted Networks for Tabular Classification

Arxiv

0+阅读 · 5月20日

A Hybrid Cluster-Based Classification Model for Anomaly Detection in Unbalanced IoT Networks

Arxiv

0+阅读 · 5月19日

相关基金

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于正交级数展开的多体系统混合不确定性研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

针刺治疗偏头痛疗效差异的单核苷酸多态性相关脑功能网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

在Cre/loxP基因重组小鼠脑内植入“光控开关”建立偏头痛模型

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员