The reliability of Large Language Models (LLMs) in high-stakes domains such as healthcare, law, and scientific discovery is often compromised by hallucinations. These failures typically stem from two sources: data-driven hallucinations and reasoning-driven hallucinations. However, existing detection methods usually address only one source and rely on task-specific heuristics, limiting their generalization to complex scenarios. To overcome these limitations, we introduce the Hallucination Risk Bound, a unified theoretical framework that formally decomposes hallucination risk into data-driven and reasoning-driven components, linked respectively to training-time mismatches and inference-time instabilities. This provides a principled foundation for analyzing how hallucinations emerge and evolve. Building on this foundation, we introduce HalluGuard, an NTK-based score that leverages the induced geometry and captured representations of the NTK to jointly identify data-driven and reasoning-driven hallucinations. We evaluate HalluGuard on 10 diverse benchmarks, 11 competitive baselines, and 9 popular LLM backbones, consistently achieving state-of-the-art performance in detecting diverse forms of LLM hallucinations.


翻译:大语言模型在医疗、法律和科学发现等高风险领域中的可靠性常因幻觉问题而受到损害。这些故障通常源于两个根源:数据驱动的幻觉与推理驱动的幻觉。然而,现有的检测方法通常仅针对单一根源,且依赖于特定任务的启发式规则,限制了其在复杂场景中的泛化能力。为克服这些局限,我们提出了幻觉风险边界——一个统一的理论框架,该框架将幻觉风险形式化地分解为数据驱动与推理驱动两个组成部分,分别关联于训练时的失配与推理时的不稳定性。这为分析幻觉如何产生与演化提供了原则性基础。基于此框架,我们提出了HalluGuard,一种基于神经正切核的评分方法,该方法利用神经正切核所诱导的几何结构及其捕获的表征,以联合识别数据驱动与推理驱动的幻觉。我们在10个多样化基准测试、11个竞争性基线方法与9个主流大语言模型骨干网络上对HalluGuard进行评估,其在检测多种形式的大语言模型幻觉方面始终达到最先进的性能水平。

0
下载
关闭预览

相关内容

通过采集数据(这里的数据必须满足大、全、细、时),将数据进行组织形成信息流,在做决策或者产品、运营等优化时,根据不同需求对信息流进行提炼总结,从而在数据的支撑下或者指导下进行科学的行动叫做数据驱动。
大语言模型幻觉:系统综述
专知会员服务
39+阅读 · 2025年10月10日
大语言模型与视觉模型中的幻觉现象理解综述
专知会员服务
21+阅读 · 2025年10月2日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
大型语言模型幻觉的综述
专知会员服务
39+阅读 · 2024年2月15日
大型语言模型幻觉缓解技术的全面综述
专知会员服务
72+阅读 · 2024年1月3日
大模型的幻觉现象介绍
专知会员服务
66+阅读 · 2023年10月27日
多模态大模型的幻觉问题与评估
专知会员服务
57+阅读 · 2023年7月28日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
大语言模型幻觉:系统综述
专知会员服务
39+阅读 · 2025年10月10日
大语言模型与视觉模型中的幻觉现象理解综述
专知会员服务
21+阅读 · 2025年10月2日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
大型语言模型幻觉的综述
专知会员服务
39+阅读 · 2024年2月15日
大型语言模型幻觉缓解技术的全面综述
专知会员服务
72+阅读 · 2024年1月3日
大模型的幻觉现象介绍
专知会员服务
66+阅读 · 2023年10月27日
多模态大模型的幻觉问题与评估
专知会员服务
57+阅读 · 2023年7月28日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员