Hallucination--defined here as generating statements unsupported or contradicted by available evidence or conversational context--remains a major obstacle to deploying conversational AI systems in settings that demand factual reliability. Existing metrics either evaluate isolated responses or treat unverifiable content as errors, limiting their use for multi-turn dialogue. We introduce VISTA (Verification In Sequential Turn-based Assessment), a framework for evaluating conversational factuality through claim-level verification and sequential consistency tracking. VISTA decomposes each assistant turn into atomic factual claims, verifies them against trusted sources and dialogue history, and categorizes unverifiable statements (subjective, contradicted, lacking evidence, or abstaining). Across eight large language models and four dialogue factuality benchmarks (AIS, BEGIN, FAITHDIAL, and FADE), VISTA substantially improves hallucination detection over FACTSCORE and LLM-as-Judge baselines. Human evaluation confirms that VISTA's decomposition improves annotator agreement and reveals inconsistencies in existing benchmarks. By modeling factuality as a dynamic property of conversation, VISTA offers a more transparent, human-aligned measure of truthfulness in dialogue systems.


翻译:幻觉(此处定义为生成缺乏可用证据或对话上下文支持、或与之相矛盾的陈述)仍然是对话式人工智能系统在要求事实可靠性的场景中部署的主要障碍。现有评估指标要么评估孤立响应,要么将无法验证的内容视为错误,限制了其在多轮对话中的应用。我们提出了VISTA(基于顺序回合的验证评估),这是一个通过声明级验证和顺序一致性跟踪来评估对话事实性的框架。VISTA将每个助手回合分解为原子事实声明,根据可信来源和对话历史对其进行验证,并对无法验证的陈述(主观的、矛盾的、缺乏证据的或弃权的)进行分类。在八个大型语言模型和四个对话事实性基准(AIS、BEGIN、FAITHDIAL和FADE)上,VISTA在幻觉检测方面显著优于FACTSCORE和LLM-as-Judge基线方法。人工评估证实,VISTA的分解方法提高了标注者间一致性,并揭示了现有基准中的不一致性。通过将事实性建模为对话的动态属性,VISTA为对话系统提供了一种更透明、更符合人类认知的真实性度量标准。

0
下载
关闭预览

相关内容

《深度伪造防御系统评估的系统性方法》
专知会员服务
14+阅读 · 3月16日
通用智能体评估的逻辑架构
专知会员服务
20+阅读 · 2月28日
通用人工智能:是什么?如何测试?如何实现?
专知会员服务
27+阅读 · 2024年6月19日
大型语言模型幻觉缓解技术的全面综述
专知会员服务
72+阅读 · 2024年1月3日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
[SIGIR2021]可复现推荐系统评估的全面和严谨的框架
专知会员服务
22+阅读 · 2021年4月30日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
赛尔原创 | 对话系统评价方法综述
哈工大SCIR
11+阅读 · 2017年11月13日
知识图谱 vs. 对话系统专题讨论 - PaperWeekly 社区
PaperWeekly
10+阅读 · 2017年10月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
0+阅读 · 6分钟前
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 34分钟前
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
赛尔原创 | 对话系统评价方法综述
哈工大SCIR
11+阅读 · 2017年11月13日
知识图谱 vs. 对话系统专题讨论 - PaperWeekly 社区
PaperWeekly
10+阅读 · 2017年10月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员