Large language models (LLMs) increasingly support very long input contexts. Yet it remains unclear how reliably they extract and infer information at scale. Performance varies with context length and strongly interacts with how information is distributed in real-world corpora. Motivated by these observations, we study how fact placement, corpus-level fact distributions, and Don't Make It Up prompts influence model behavior. We introduce an extended needle-in-a-haystack benchmark across four production-scale models: Gemini-2.5-flash, ChatGPT-5-mini, Claude-4.5-haiku, and Deepseek-v3.2-chat. Unlike prior work, we separately evaluate literal extraction, logical inference, and hallucination risk. Our study considers both positional effects and realistic distributions of evidence across long contexts, as well as prompts that explicitly discourage fabrication. We find that longer contexts alone do not guarantee better performance and can be detrimental when relevant evidence is diluted or widely dispersed. Performance varies substantially across models: some show severe degradation under realistic conditions, while others remain more robust at longer context lengths. Anti-hallucination (AH) instructions can make some models overly conservative, sharply reducing accuracy in literal extraction and logical inference. While we do not directly compare retrieval-augmented generation (RAG) and cache-augmented generation (CAG), our results suggest many failures stem from ineffective context utilization. Models often struggle to identify and prioritize relevant information even when it is present. These findings have direct practical implications, as enterprise workflows increasingly involve pasting large volumes of unfiltered documents into LLM prompts. Effective context length and model-specific robustness to long contexts are therefore critical for reliable LLM deployment in research and business.


翻译:大型语言模型(LLM)日益支持超长输入上下文,但其大规模信息提取与推理的可靠性仍不明确。模型性能随上下文长度变化,且与实际语料中信息分布方式存在强烈交互。基于这些观察,我们系统研究了事实位置、语料级事实分布以及"勿虚构"提示对模型行为的影响。我们构建了一个扩展的"大海捞针"基准测试,涵盖四个生产级模型:Gemini-2.5-flash、ChatGPT-5-mini、Claude-4.5-haiku 和 Deepseek-v3.2-chat。与先前研究不同,我们分别评估字面提取、逻辑推理和幻觉风险。本研究同时考察位置效应、长上下文中证据的现实分布模式,以及明确禁止虚构的提示策略。研究发现:仅增加上下文长度并不能保证性能提升,当相关证据被稀释或广泛分散时反而可能损害性能;不同模型表现差异显著——部分模型在现实条件下性能严重退化,而另一些在更长上下文场景中保持相对稳健;反幻觉指令可能导致某些模型过度保守,显著降低字面提取与逻辑推理的准确率。虽然未直接比较检索增强生成(RAG)与缓存增强生成(CAG),但结果表明许多失败源于上下文利用效率低下——即使相关信息存在,模型仍难以有效识别和优先处理关键证据。这些发现具有直接实践意义:随着企业工作流日益倾向于将大量未过滤文档直接粘贴至LLM提示中,有效上下文长度及模型对长上下文的特异性鲁棒性,已成为科研与商业场景中可靠部署LLM的关键因素。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员