Knowledge injection aims to equip large language models (LLMs) with external, domain-specific, or time-sensitive knowledge. Existing approaches typically face a trade-off between flexibility and integration: retrieval-augmented generation keeps knowledge outside the model but only provides prompt-level augmentation, whereas post-training based methods encode new knowledge into shared parameters but may introduce catastrophic forgetting, knowledge conflict, and costly updates. In this paper, we propose Decoupled Mixture-of-Experts (DMoE), a modular architecture for parametric knowledge injection that decouples both experts and the router from the base model. DMoE converts external knowledge corpora into independently updatable expert modules and uses a lightweight uncertainty-aware router to activate relevant experts only when the base model lacks sufficient knowledge during generation. To support efficient auto-regressive inference, DMoE attaches experts only to the final-layer feed-forward network, preserving KV-cache reuse while enabling parameter-level knowledge augmentation. Experiments on knowledge-intensive benchmarks show that DMoE consistently improves answer quality over retrieval and adapter-based baselines.


翻译:知识注入旨在使大语言模型(LLMs)具备外部、领域特定或时效性强的知识。现有方法通常在灵活性与集成性之间面临权衡:检索增强生成将知识保留在模型外部,但仅能提供提示层面的增强;而后训练方法将新知识编码进共享参数,但可能引发灾难性遗忘、知识冲突及高昂的更新成本。本文提出解耦混合专家模型(Decoupled Mixture-of-Experts, DMoE),这是一种用于参数化知识注入的模块化架构,将专家模块和路由模块与基础模型解耦。DMoE将外部知识语料转化为可独立更新的专家模块,并采用轻量级不确定性感知路由机制,仅在基础模型生成过程中缺乏足够知识时激活相关专家。为支持高效自回归推理,DMoE仅将专家模块附加至最后一层的前馈网络,在保留KV缓存复用能力的同时实现参数级知识增强。在知识密集型基准上的实验表明,DMoE相比基于检索和适配器的基线方法,能够持续提升回答质量。

0
下载
关闭预览

相关内容

混合专家模型在大模型微调领域进展
专知会员服务
48+阅读 · 2024年9月23日
知识图谱与大模型融合综述
专知会员服务
120+阅读 · 2024年6月30日
探究检索增强下的大模型知识边界
专知会员服务
56+阅读 · 2023年7月25日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员