信息获取从未像现在这样便捷、迅速,却也从未如此脆弱。随着语言模型日益主导搜索与问答领域,检索信息与生成信息之间的界限已趋于模糊。旨在寻找相关文档的系统,现在通常会结合模型记忆与检索到的证据,缝合生成完整的回答与解释。尽管检索增强模型(RAG)使回答复杂问题变得轻而易举,但这种便利往往掩盖了其脆弱性:此类系统在测试条件与训练数据相似时表现最佳,而当二者不一致时则经常失效。 现代信息检索系统通常采用流水线架构(Pipeline Architecture),由检索器筛选候选文档,再由生成器根据这些文档生成回答。在这些系统中,检索与生成是紧密耦合的。实现可靠性能的关键在于两项要求:一是泛化性,即检索器在面对新数据集、新领域和新语言时依然有效;二是有据性,即生成器必须依据检索到的证据产出内容,并在证据缺失时拒绝回答。 本论文将这两项要求结合起来进行研究。文中考察了训练数据增强与负采样如何影响分布偏移下的稠密检索器,提出了增强跨领域及跨语言鲁棒性的方法,并研究了如何训练小型开源语言模型,使其能够基于检索到的证据进行推理,并在证据不足时拒绝回答。最后,本研究通过开源库 Simple Transformers 强调了技术的可及性,旨在降低构建与复现基于 Transformer 的检索及问答系统的门槛。

https://hdl.handle.net/11245.1/7817d7ad-bcf9-4517-8f18-2b620facd97d

成为VIP会员查看完整内容
9

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
检索增强生成(RAG)技术,261页slides
专知会员服务
41+阅读 · 2025年10月16日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
29+阅读 · 2025年2月12日
定制化大型语言模型的图检索增强生成综述
专知会员服务
37+阅读 · 2025年1月28日
检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
59+阅读 · 2024年4月18日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
检索增强生成(RAG)技术,261页slides
专知会员服务
41+阅读 · 2025年10月16日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
29+阅读 · 2025年2月12日
定制化大型语言模型的图检索增强生成综述
专知会员服务
37+阅读 · 2025年1月28日
检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
59+阅读 · 2024年4月18日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员