Large language models can exhibit surprising adapter interference when combining domain adaptation and instruction alignment in safety-critical settings. We study a two-stage LoRA pipeline for medical LLMs, where domain-oriented pre-training (PT) and supervised fine-tuning (SFT) are trained separately and later merged through weighted adapter merging. We observe that introducing PT signal can systematically alter model behavior and produce reasoning-style outputs, even when evaluation templates explicitly attempt to suppress such behavior. This interference leads to a divergence between surface metrics and reasoning or alignment behavior: BLEU/ROUGE scores drop significantly, while multiple-choice accuracy improves. We further show that small pipeline mistakes can easily misattribute SFT-only behavior to merged models, and provide a lightweight merge-verification routine to ensure correctness and reproducibility. Our findings highlight an interaction between knowledge injection and instruction alignment in adapter-based fine-tuning, with important implications for safety-critical model deployment.


翻译:在安全关键场景中结合领域适应与指令对齐时,大语言模型可能表现出令人惊讶的适配器干扰现象。本研究针对医学大语言模型的两阶段LoRA流程展开分析,其中领域导向预训练(PT)与监督微调(SFT)分别训练,随后通过加权适配器合并进行融合。我们发现,即使评估模板明确尝试抑制此类行为,引入PT信号仍会系统性改变模型行为并产生推理式输出。这种干扰导致表层指标与推理或对齐行为之间出现背离:BLEU/ROUGE分数显著下降,而多项选择题准确率却有所提升。我们进一步证明,流程中的细微错误容易将仅含SFT的行为错误归因于合并模型,并提出了轻量级的合并验证流程以确保正确性与可复现性。本研究揭示了基于适配器的微调中知识注入与指令对齐之间的相互作用,对安全关键模型的部署具有重要启示。

0
下载
关闭预览

相关内容

什么是后训练?大语言模型训练后优化方法综述,87页pdf
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
117+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
VIP会员
相关VIP内容
什么是后训练?大语言模型训练后优化方法综述,87页pdf
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
相关基金
国家自然科学基金
117+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员