Large language models answer knowledge-intensive questions using both parametric memory and retrieved evidence, but neither source is uniformly reliable. Retrieval can fill knowledge gaps, yet distracting passages may override correct closed-book answers. We study this post-generation conflict as answer-level source arbitration: given Direct and RAG answers from the same frozen model, decide which source to trust. We propose TRUSTMARGIN, a training-free, plug-and-play arbitration layer that scores the two existing candidates with the model's own likelihoods. It combines a parametric-prior margin, which tests whether memory accepts the retrieved answer, with an evidence-binding margin, which discounts passage-only salience and measures question-specific support. TRUSTMARGIN selects between Direct and RAG without fine-tuning, external judges, or additional generation. Across 2WIKIMQA and CWQA with three LLaMA scales, TRUSTMARGIN consistently improves over Direct generation and BM25-RAG, recovers part of the Direct/RAG oracle gap, and generalizes to multiple training-free RAG pipelines.


翻译:大语言模型通过参数化记忆与检索证据共同回答知识密集型问题,但两者均非完全可靠。检索虽能填补知识空白,但干扰性段落可能覆盖原本正确的闭卷答案。我们将这种生成后冲突定位为答案级来源仲裁问题:给定同一冻结模型生成的直接回答与检索增强回答,需判定应信任哪个来源。我们提出免训练即插即用仲裁层TRUSTMARGIN,通过模型自身似然度对两个候选答案进行评分。该机制结合两项关键指标:参数化先验边际(检验记忆是否接受检索答案)与证据绑定边际(消解段落级显著性并量化问题特异性支持度)。无需微调、外部评判或额外生成,TRUSTMARGIN即可在直接生成与检索增强生成之间做出选择。在2WIKIMQA与CWQA两个基准测试中,基于三种不同规模的LLaMA模型,TRUSTMARGIN均持续优于直接生成与BM25检索增强生成,部分弥合了直接生成/检索增强生成理想性能差距,并可泛化至多种免训练检索增强生成流水线。

0
下载
关闭预览

相关内容

什么是后训练?大语言模型训练后优化方法综述,87页pdf
大语言模型的知识冲突:成因、根源与展望
专知会员服务
21+阅读 · 2024年9月23日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
什么是后训练?大语言模型训练后优化方法综述,87页pdf
大语言模型的知识冲突:成因、根源与展望
专知会员服务
21+阅读 · 2024年9月23日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员