Large language models store biomedical facts with uneven strength after pretraining: some facts are present in the weights but are not reliably accessible under deterministic decoding (latent knowledge), while others are scarcely represented. We fine tuned Llama 3.1 8B Instruct to learn ontology term identifier mappings from the Human Phenotype Ontology (800 pairs) and the Gene Ontology (400 training pairs), withholding 400 GO pairs to test generalization. Treating learning as a time to event process across 20 epochs, we used stochastic decoding to detect latent knowledge at baseline and Cox proportional hazards models to identify predictors of acquisition, generalization, and degradation. Baseline deterministic recall for HPO was 2.8%, rising to 71.9% after fine-tuning. Latent knowledge was the strongest predictor of faster fact acquisition (HR 2.6) and was associated with earlier, higher peak learning rates and faster convergence; identifier frequency and curated annotation counts had smaller effects. Generalization to withheld GO facts was uncommon (5.8%) but more likely when latent knowledge was present. Previously correct GO mappings degraded more often for withheld (unseen) terms than for trained (seen) terms, suggesting a protective effect of reinforcement during training. These results show that latent knowledge predicts both the speed of factual learning during fine-tuning and the limited generalization of unseen ontology facts, while resistance to degradation depends on whether facts are reinforced.


翻译:大型语言模型在预训练后存储生物医学事实的强度不均:部分事实存在于权重中,但在确定性解码下无法可靠获取(潜在知识),而其他事实则几乎未被表征。我们对 Llama 3.1 8B Instruct 进行微调,使其学习来自人类表型本体(800 对)和基因本体(400 个训练对)的本体术语标识符映射,并保留 400 个 GO 对以测试泛化能力。将学习视为跨越 20 个轮次的时序事件过程,我们使用随机解码检测基线潜在知识,并采用 Cox 比例风险模型识别事实获取、泛化及退化的预测因子。HPO 的基线确定性召回率为 2.8%,微调后升至 71.9%。潜在知识是事实更快获取的最强预测因子(风险比 2.6),且与更早出现、更高的峰值学习率及更快收敛相关;标识符频率和人工标注数量的影响较小。对保留 GO 事实的泛化较为罕见(5.8%),但在存在潜在知识时更可能发生。先前正确的 GO 映射在保留(未见)术语中比在训练(已见)术语中更常发生退化,表明训练过程中的强化具有保护效应。这些结果表明,潜在知识既能预测微调期间事实学习的速度,也能解释未见本体事实的有限泛化,而对退化的抵抗力则取决于事实是否经过强化。

0
下载
关闭预览

相关内容

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
探究检索增强下的大模型知识边界
专知会员服务
56+阅读 · 2023年7月25日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
探究检索增强下的大模型知识边界
专知会员服务
56+阅读 · 2023年7月25日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员