Hallucination--defined here as generating statements unsupported or contradicted by available evidence or conversational context--remains a major obstacle to deploying conversational AI systems in settings that demand factual reliability. Existing metrics either evaluate isolated responses or treat unverifiable content as errors, limiting their use for multi-turn dialogue. We introduce VISTA (Verification In Sequential Turn-based Assessment), a framework for evaluating conversational factuality through claim-level verification and sequential consistency tracking. VISTA decomposes each assistant turn into atomic factual claims, verifies them against trusted sources and dialogue history, and categorizes unverifiable statements (subjective, contradicted, lacking evidence, or abstaining). Across eight large language models and four dialogue factuality benchmarks (AIS, BEGIN, FAITHDIAL, and FADE), VISTA substantially improves hallucination detection over FACTSCORE and LLM-as-Judge baselines. Human evaluation confirms that VISTA's decomposition improves annotator agreement and reveals inconsistencies in existing benchmarks. By modeling factuality as a dynamic property of conversation, VISTA offers a more transparent, human-aligned measure of truthfulness in dialogue systems.


翻译:幻觉(此处定义为生成缺乏可用证据或对话上下文支持、或与之相矛盾的陈述)仍然是对话式人工智能系统在要求事实可靠性的场景中部署的主要障碍。现有评估指标要么评估孤立响应,要么将无法验证的内容视为错误,限制了其在多轮对话中的应用。我们提出了VISTA(基于顺序回合的验证评估),这是一个通过声明级验证和顺序一致性跟踪来评估对话事实性的框架。VISTA将每个助手回合分解为原子事实声明,根据可信来源和对话历史对其进行验证,并对无法验证的陈述(主观的、矛盾的、缺乏证据的或弃权的)进行分类。在八个大型语言模型和四个对话事实性基准(AIS、BEGIN、FAITHDIAL和FADE)上,VISTA在幻觉检测方面显著优于FACTSCORE和LLM-as-Judge基线方法。人工评估证实,VISTA的分解方法提高了标注者间一致性,并揭示了现有基准中的不一致性。通过将事实性建模为对话的动态属性,VISTA为对话系统提供了一种更透明、更符合人类认知的真实性度量标准。

0
下载
关闭预览

相关内容

扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
14+阅读 · 4月15日
《深度伪造防御系统评估的系统性方法》
专知会员服务
14+阅读 · 3月16日
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
通用人工智能:是什么?如何测试?如何实现?
专知会员服务
27+阅读 · 2024年6月19日
大型语言模型幻觉缓解技术的全面综述
专知会员服务
72+阅读 · 2024年1月3日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
[SIGIR2021]可复现推荐系统评估的全面和严谨的框架
专知会员服务
22+阅读 · 2021年4月30日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
赛尔原创 | 对话系统评价方法综述
哈工大SCIR
11+阅读 · 2017年11月13日
知识图谱 vs. 对话系统专题讨论 - PaperWeekly 社区
PaperWeekly
10+阅读 · 2017年10月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
赛尔原创 | 对话系统评价方法综述
哈工大SCIR
11+阅读 · 2017年11月13日
知识图谱 vs. 对话系统专题讨论 - PaperWeekly 社区
PaperWeekly
10+阅读 · 2017年10月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员