Despite numerous attempts to solve the issue of hallucination since the inception of neural language models, it remains a problem in even frontier large language models today. Why is this the case? We walk through definitions of hallucination used in the literature from a historical perspective up to the current day, and fold them into a single definition of hallucination, wherein different prior definitions focus on different aspects of our definition. At its core, we argue that hallucination is simply inaccurate (internal) world modeling, in a form where it is observable to the user (e.g., stating a fact which contradicts a knowledge base, or producing a summary which contradicts a known source). By varying the reference world model as well as the knowledge conflict policy (e.g., knowledge base vs. in-context), we arrive at the different existing definitions of hallucination present in the literature. We argue that this unified view is useful because it forces evaluations to make clear their assumed "world" or source of truth, clarifies what should and should not be called hallucination (as opposed to planning or reward/incentive-related errors), and provides a common language to compare benchmarks and mitigation techniques. Building on this definition, we outline plans for a family of benchmarks in which hallucinations are defined as mismatches with synthetic but fully specified world models in different environments, and sketch out how these benchmarks can use such settings to stress-test and improve the world modeling components of language models.


翻译:尽管自神经语言模型诞生以来,已有众多尝试致力于解决幻觉问题,但即使在当今前沿的大型语言模型中,这依然是一个悬而未解的难题。原因何在?本文从历史视角梳理了文献中使用的幻觉定义,并将其整合为一个统一的幻觉定义,而以往不同的定义实则聚焦于我们定义中的不同侧面。我们认为,幻觉的核心本质是(内部)世界建模的不准确性,并以用户可观测的形式呈现(例如陈述与知识库相矛盾的事实,或生成与已知信源相悖的摘要)。通过变换参考世界模型以及知识冲突策略(例如知识库对比上下文内知识),我们得以推导出文献中现有的各类幻觉定义。我们认为这种统一视角具有重要价值,因为它迫使评估工作明确其假设的“世界”或真值来源,厘清了哪些应被归类为幻觉(而非规划或奖励/激励相关错误),并为比较基准测试与缓解技术提供了共同语言框架。基于此定义,我们规划了一系列基准测试方案,其中幻觉被定义为模型输出与不同环境下完全指定的合成世界模型之间的失配,并阐述了如何利用此类设定对语言模型的世界建模组件进行压力测试与性能优化。

0
下载
关闭预览

相关内容

大型语言模型幻觉的综述
专知会员服务
39+阅读 · 2024年2月15日
【自然语言处理】清华刘知远55页自然语言处理PPT
产业智能官
19+阅读 · 2019年8月23日
【CPS】社会物理信息系统(CPSS)及其典型应用
产业智能官
16+阅读 · 2018年9月18日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员