Hallucination--defined here as generating statements unsupported or contradicted by available evidence or conversational context--remains a major obstacle to deploying conversational AI systems in settings that demand factual reliability. Existing metrics either evaluate isolated responses or treat unverifiable content as errors, limiting their use for multi-turn dialogue. We introduce VISTA (Verification In Sequential Turn-based Assessment), a framework for evaluating conversational factuality through claim-level verification and sequential consistency tracking. VISTA decomposes each assistant turn into atomic factual claims, verifies them against trusted sources and dialogue history, and categorizes unverifiable statements (subjective, contradicted, lacking evidence, or abstaining). Across eight large language models and four dialogue factuality benchmarks (AIS, BEGIN, FAITHDIAL, and FADE), VISTA substantially improves hallucination detection over FACTSCORE and LLM-as-Judge baselines. Human evaluation confirms that VISTA's decomposition improves annotator agreement and reveals inconsistencies in existing benchmarks. By modeling factuality as a dynamic property of conversation, VISTA offers a more transparent, human-aligned measure of truthfulness in dialogue systems.


翻译:幻觉——此处定义为生成缺乏可用证据或对话上下文支持、或与之相矛盾的陈述——仍然是对话式人工智能系统在需要事实可靠性的场景中部署的主要障碍。现有评估指标要么评估孤立响应,要么将不可验证内容视为错误,限制了其在多轮对话中的应用。我们提出了VISTA(顺序回合制评估中的验证)框架,该框架通过声明级验证和顺序一致性追踪来评估对话的事实性。VISTA将每个助手回合分解为原子事实声明,依据可信来源和对话历史对其进行验证,并对不可验证陈述(主观性、矛盾性、缺乏证据或弃权)进行分类。在八个大型语言模型和四个对话事实性基准(AIS、BEGIN、FAITHDIAL和FADE)上的实验表明,VISTA在幻觉检测方面显著优于FACTSCORE和LLM-as-Judge基线方法。人工评估证实,VISTA的分解方法提高了标注者间一致性,并揭示了现有基准中的不一致性。通过将事实性建模为对话的动态属性,VISTA为对话系统提供了一种更透明、更符合人类认知的真实性度量标准。

0
下载
关闭预览

相关内容

IEEE TPAMI | 基于标注偏差估计的实例相关PU学习
专知会员服务
12+阅读 · 2021年10月23日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员