Large language models are increasingly deployed in citation-augmented settings, yet the effect of citation presence on model behavior independent of factual content remains poorly understood. We introduce AuthorityBench, a 220,564-prompt multi-domain benchmark that isolates how citation-based authority signals influence epistemic behavior in LLMs. The benchmark uses a fully balanced 2x2 factorial design crossing claim veracity with citation veracity, the first to do so, across four domains (general knowledge, science, law, and medicine), with controlled variation over 40 prompt templates, four venue prestige tiers, and a country-coded author name dataset. Evaluating seven models on 12 structured research questions, we find that citation presence, whether real or fabricated, consistently increases hallucination rates relative to a no-citation baseline. The effect is strongest when fabricated citations accompany true claims, raising hallucination rates by 3 to 22 percentage points and reaching 35 to 77% in the general knowledge domain, while legal claims are comparatively robust and venue prestige and author demographics show negligible impact. All datasets and evaluation code are available at: https://github.com/floating-reeds/AuthorityBench


翻译:大语言模型日益被部署在引文增强的场景中,但引文存在性对模型行为的影响(独立于事实内容)仍鲜有理解。我们提出AuthorityBench——一个包含220,564个提示的多领域基准,旨在隔离基于引文的权威信号如何影响大语言模型的认知行为。该基准采用首个全平衡2×2因子设计,交叉控制声明真实性(true/fabricated)与引文真实性(real/fabricated/citation-absent),涵盖四个领域(常识、科学、法律、医学),并包含40种提示模板、四个场所声望层级及国籍标注作者姓名数据集的可控变异。在7个模型上评估12个结构化研究问题后,我们发现:相较于无引文基线,引文存在性(无论是真实还是捏造)均持续增加幻觉率。当捏造引文伴随真实声明时效果最强,幻觉率提升3至22个百分点,在常识领域达到35%-77%;法律声明相对稳健,而场所声望及作者人口学特征影响可忽略。所有数据集及评估代码均发布于:https://github.com/floating-reeds/AuthorityBench

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
大语言模型基准综述
专知会员服务
27+阅读 · 2025年8月22日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
AAAI 2020论文解读:关注实体以更好地理解文本
AI科技评论
17+阅读 · 2019年11月20日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
4+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关资讯
AAAI 2020论文解读:关注实体以更好地理解文本
AI科技评论
17+阅读 · 2019年11月20日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员