Machine learning in high-stakes domains such as healthcare requires not only strong predictive performance but also reliable uncertainty quantification (UQ) to support human oversight. Multi-label text classification (MLTC) is a central task in this domain, yet remains challenging due to label imbalances, dependencies, and combinatorial complexity. Existing MLTC benchmarks are increasingly saturated and may be affected by training data contamination, making it difficult to distinguish genuine reasoning capabilities from memorization. We introduce MADE, a living MLTC benchmark derived from {m}edical device {ad}verse {e}vent reports and continuously updated with newly published reports to prevent contamination. MADE features a long-tailed distribution of hierarchical labels and enables reproducible evaluation with strict temporal splits. We establish baselines across more than 20 encoder- and decoder-only models under fine-tuning and few-shot settings (instruction-tuned/reasoning variants, local/API-accessible). We systematically assess entropy-/consistency-based and self-verbalized UQ methods. Results show clear trade-offs: smaller discriminatively fine-tuned decoders achieve the strongest head-to-tail accuracy while maintaining competitive UQ; generative fine-tuning delivers the most reliable UQ; large reasoning models improve performance on rare labels yet exhibit surprisingly weak UQ; and self-verbalized confidence is not a reliable proxy for uncertainty. Our work is publicly available at https://hhi.fraunhofer.de/aml-demonstrator/made-benchmark.


翻译:在高风险领域(如医疗健康)中,机器学习不仅需要强大的预测性能,还需要可靠的不确定性量化(UQ)以支持人工监督。多标签文本分类(MLTC)是该领域的核心任务,但由于标签不平衡、依赖关系和组合复杂性,仍面临挑战。现有MLTC基准日益饱和,且可能受训练数据污染影响,难以区分真正的推理能力与记忆能力。我们提出MADE——一个基于医疗设备不良事件报告的动态MLTC基准,并通过持续更新新发布的报告以防止数据污染。MADE具有层次化标签的长尾分布特征,并通过严格的时间切分实现可复现评估。我们在超过20种编码器-解码器及解码器模型上建立了基线,涵盖微调和少样本设置(指令微调/推理变体、本地/API可访问模型)。系统评估了基于熵、一致性和自我表述的UQ方法。结果表明存在明确权衡:较小的判别式微调解码器在实现从头部到尾部最高精度的同时,保持了具有竞争力的UQ;生成式微调提供了最可靠的UQ;大型推理模型改善了稀有标签的性能,但UQ表现异常薄弱;而自我表述的置信度并非不确定性的可靠代理。我们的工作公开发布于https://hhi.fraunhofer.de/aml-demonstrator/made-benchmark。

0
下载
关闭预览

相关内容

【CMU博士论文】校准不确定性量化的方法及其效用解析
专知会员服务
22+阅读 · 2025年9月1日
《不完全多标签学习综述:最新进展与未来趋势》
专知会员服务
26+阅读 · 2024年6月11日
《深度学习多标签学习》最新综述
专知会员服务
47+阅读 · 2024年1月31日
监督和半监督学习下的多标签分类综述
专知会员服务
46+阅读 · 2022年8月3日
专知会员服务
26+阅读 · 2021年7月17日
专知会员服务
40+阅读 · 2021年5月18日
注意力图神经网络的多标签文本分类
专知会员服务
112+阅读 · 2020年3月28日
【AI与医学】多模态机器学习精准医疗健康
零样本图像识别综述论文
专知
22+阅读 · 2020年4月4日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
3+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
5+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员