Large Language Models such as GPT-4o and GPT-5 achieve strong zero-shot performance on biomedical claim verification, but cost and opacity limit scalable use. We fine-tune three small LLMs: Phi-3-mini (3.8B), Qwen2.5-3B, and Mistral-7B, via QLoRA on SciFact and HealthVer, providing the first study of QLoRA models against GPT-4o and fine-tuned BioLinkBERT encoders. Mistral-7B QLoRA surpasses both GPT-4o and GPT-5 (up to 12% F1 gain) at a fractional cost using just 1,008 training examples. We conduct extensive in-domain and cross-domain evaluation: models trained on SciFact tested on HealthVer and vice versa, at matched sizes to isolate dataset structure from data quantity. We identify a previously unreported structural artifact in SciFact that inflates in-domain scores, and show through bidirectional out-of-domain evaluation that training on structurally sound data enables robust cross-domain transfer. We plan to release all code and adapter checkpoints.


翻译:大型语言模型(如GPT-4o和GPT-5)在生物医学声明验证任务中表现出强大的零样本性能,但高昂的成本和不透明性限制了其规模化应用。我们采用QLoRA方法对三个小型语言模型(Phi-3-mini (3.8B)、Qwen2.5-3B和Mistral-7B)在SciFact和HealthVer数据集上进行微调,首次系统比较了QLoRA模型与GPT-4o及微调后的BioLinkBERT编码器的性能。其中,Mistral-7B QLoRA模型在仅使用1,008个训练样本的情况下,以极低的成本超越了GPT-4o和GPT-5(F1值最高提升12%)。我们开展了广泛的域内与跨域评估:将在SciFact上训练的模型在HealthVer上测试,反之亦然,并通过匹配模型规模来隔离数据集结构与数据量对结果的影响。研究发现SciFact数据集存在此前未被报道的结构性伪影,该伪影会人为提升域内性能分数;双向跨域评估表明,基于结构可靠数据训练的模型能够实现稳健的跨域迁移。我们将公开所有代码与适配器检查点。

0
下载
关闭预览

相关内容

LLM 时代小模型的应用潜力与挑战 ,50页pdf
专知会员服务
37+阅读 · 2025年2月25日
大规模语言模型在生物信息学中的应用
专知会员服务
18+阅读 · 2025年1月16日
《LLM 时代小模型的作用》综述
专知会员服务
49+阅读 · 2024年9月12日
医学大语言模型研究与应用综述
专知会员服务
67+阅读 · 2024年7月2日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
3+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
5+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员