摘要大语言模型(LLMs)通过摄取并提供广泛的人类知识,彻底改变了我们获取信息的方式。然而,LLM 经常偏离其训练数据中所包含的知识以及不断发展的世界现状,从而产生“幻觉”。因此,将模型锚定(Grounding)在外部人工编纂的知识源中至关重要;但在实践中,信息检索与 LLM 的简单结合仍频繁出现幻觉。此外,当前的 LLM 在很大程度上排除了数世纪以来仅存在于印刷或手写文档中的历史知识。 为了实现对人工编纂知识源的可靠访问,我们提出了一种构建聊天机器人的方法论,使其既能消除幻觉,又能保持用户参与度。该方法将知识对齐对话这一复杂任务分解为七个信息流紧密衔接的子步骤,每个步骤均可由 LLM 可靠地处理。我们并未要求 LLM 直接生成回复,而是将其应用于其擅长的任务(如信息过滤)。我们将此方法实例化,并基于最大的开放语料库——维基百科(Wikipedia)构建了对话系统。该系统名为 WikiChat,其性能优于现有的检索增强生成(RAG)方法及其他 LLM。在与用户的对话中,它实现了 97.9% 的综合事实准确率,比 GPT-4 高出 55.0%,同时获得了更高的用户评价。 AI 助手的可靠性从根本上受限于其底层知识源的质量。损害这一质量的一个现象是“内部知识不一致性”,即语料库的不同部分呈现出相互冲突的信息。这种不一致性甚至存在于维基百科等人工编纂的知识源中,而维基百科被广泛用作 NLP 基准测试的事实标准(Source of truth)。然而,如本论文所示,早期 NLP 研究在构建数据集和评估系统时,在很大程度上忽略了这些不一致性的存在。那么,能否在大规模范围内系统地检测这些不一致性?我们定义了“事实不一致性检测”任务:给定一个知识语料库,识别相互矛盾的事实对,并为此构建了首个数据集。由于知识语料库规模巨大且矛盾点具有隐蔽性,发现此类不一致性极具挑战。我们发现,LLM 能够搜集相关上下文以识别矛盾,但难以可靠地将其分类为“矛盾”或“非矛盾”。为此,我们提出了一种人机耦合(Human-in-the-loop)方法,由 LLM 智能体发现语料库中的事实不一致性,并将其发现和推理过程呈现给人类进行最终裁定。我们在维基百科上邀请资深编辑对性能最优的智能体 CLAIRE 进行了用户研究。使用 CLAIRE 时,编辑检测到的事实不一致性比仅使用搜索时增加了 64.7%。通过 CLAIRE,我们还发现英语维基百科中至少有 3.3% 的事实(约 8000 万项事实)与语料库中的另一项事实相矛盾。 如果知识获取是不完整的,则不能被视为可靠。在当今基于 LLM 的知识系统中,一个主要的缺失部分是历史知识,这些知识通常被封锁在印刷或手写文档中。图书馆和文化机构在数字化历史文献方面投入了巨大努力,但由于缺乏可靠的转录工具,这些知识中的大部分仍难以获取。现有工具要么精度不足,要么需要昂贵的、针对特定语料库的专家标注。我们通过策划迄今为止最具多样性的历史文献数据集 Churro-DS,向解决这一问题迈出了一步。该数据集涵盖了 22 个世纪、46 种语言及多种文字(包括手写和印刷体)的文档。我们开发了一种新的表示方式——历史文档标记语言(HDML),用于捕捉历史文档带来的独特挑战,如纸张降解、涂改、表格以及边注(Marginalia)等不寻常的布局组件,并利用其对 Churro-DS 进行标注。基于 Churro-DS,我们微调了一个小型视觉语言模型(VLM)以获得 Churro;该模型转录历史文档的质量更高,且成本仅为目前最优商业方案的 1/15.5。我们将该数据集和模型开源,以促进该领域的未来研究。 综上所述,本论文通过贡献以下方法推进了可靠的知识获取:(1) 确保基于 LLM 的知识系统的事实可靠性;(2) 揭示人工编纂知识中的不准确性;(3) 通过历史资料的数字化扩大知识的可获取性