Recognizing whether outputs from large language models (LLMs) contain faithfulness hallucination is crucial for real-world applications, e.g., retrieval-augmented generation and summarization. In this paper, we introduce FaithLens, a cost-efficient and effective faithfulness hallucination detection model that can jointly provide binary predictions and corresponding explanations to improve trustworthiness. To achieve this, we first synthesize training data with explanations via advanced LLMs and apply a well-defined data filtering strategy to ensure label correctness, explanation quality, and data diversity. Subsequently, we fine-tune the model on these well-curated training data as a cold start and further optimize it with rule-based reinforcement learning, using rewards for both prediction correctness and explanation quality. Results on 12 diverse tasks show that the 8B-parameter FaithLens outperforms advanced models such as GPT-4.1 and o3. Also, FaithLens can produce high-quality explanations, delivering a distinctive balance of trustworthiness, efficiency, and effectiveness.


翻译:识别大型语言模型(LLM)的输出是否包含忠实性幻觉对于现实世界应用(如检索增强生成与摘要)至关重要。本文提出FaithLens,一种高效且有效的忠实性幻觉检测模型,能够联合提供二元预测及相应解释以提升可信度。为实现这一目标,我们首先通过先进LLM合成包含解释的训练数据,并采用严格定义的数据过滤策略以确保标签正确性、解释质量与数据多样性。随后,我们在这些精心构建的训练数据上对模型进行冷启动微调,并进一步通过基于规则的强化学习进行优化,同时以预测正确性和解释质量作为奖励信号。在12项多样化任务上的实验结果表明,仅含80亿参数的FaithLens在性能上超越了GPT-4.1与o3等先进模型。此外,FaithLens能够生成高质量的解释,在可信度、效率与效能之间实现了卓越的平衡。

0
下载
关闭预览

相关内容

大语言模型幻觉:系统综述
专知会员服务
39+阅读 · 2025年10月10日
大语言模型中幻觉问题的综合综述
专知会员服务
24+阅读 · 2025年7月8日
大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
OpenAI Lilian Weng万字长文解读LLM幻觉:从理解到克服
专知会员服务
37+阅读 · 2024年7月14日
大型语言模型幻觉的综述
专知会员服务
39+阅读 · 2024年2月15日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
特征金字塔网络FPN的直觉与架构
论智
11+阅读 · 2018年8月6日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员