Long Context, Less Focus: A Scaling Gap in LLMs Revealed through Privacy and Personalization - 专知论文

会员服务 ·

0

上下文 · 长上下文 · 基准 · 基准测试 · 分析 ·

Long Context, Less Focus: A Scaling Gap in LLMs Revealed through Privacy and Personalization

翻译：长上下文，弱聚焦：通过隐私与个性化揭示LLM中的扩展鸿沟

Large language models (LLMs) are increasingly deployed in privacy-critical and personalization-oriented scenarios, yet the role of context length in shaping privacy leakage and personalization effectiveness remains largely unexplored. We introduce a large-scale benchmark, PAPerBench, to systematically study how increasing context length influences both personalization quality and privacy protection in LLMs. The benchmark comprises approximately 29,000 instances with context lengths ranging from 1K to 256K tokens, yielding a total of 377K evaluation questions. It jointly evaluates personalization performance and privacy risks across diverse scenarios, enabling controlled analysis of long-context model behavior. Extensive evaluations across state-of-the-art LLMs reveal consistent performance degradation in both personalization and privacy as context length increases. We further provide a theoretical analysis of attention dilution under context scaling, explaining this behavior as an inherent limitation of soft attention in fixed-capacity Transformers. The empirical and theoretical findings together suggest a general scaling gap in current models -- long context, less focus. We release the benchmark to support reproducible evaluation and future research on scalable privacy and personalization. Code and data are available at https://github.com/SafeRL-Lab/PAPerBench

翻译：大型语言模型（LLM）正日益部署于隐私敏感和个性化导向的场景中，然而上下文长度在塑造隐私泄露与个性化有效性方面的作用仍很大程度上未被探索。我们提出了一个大规模基准测试PAPerBench，以系统研究在LLM中增加上下文长度如何同时影响个性化质量与隐私保护。该基准包含约29,000个实例，上下文长度覆盖1K至256K个词元，共计生成377K个评估问题。它能够在多样化场景中联合评估个性化性能与隐私风险，从而实现对长上下文模型行为的受控分析。通过对前沿LLM的广泛评估，我们发现随着上下文长度的增加，个性化和隐私保护性能均出现一致性的退化。我们进一步对上下文扩展下的注意力稀释现象进行了理论分析，将这种行为解释为固定容量Transformer中软注意力机制的内在局限。实证与理论发现共同揭示了当前模型存在普遍的扩展鸿沟——长上下文导致弱聚焦。我们公开此基准测试以支持可复现的评估，并推动可扩展隐私与个性化领域的未来研究。代码与数据可在 https://github.com/SafeRL-Lab/PAPerBench 获取。

0

相关内容

上下文

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

个性化大型语言模型综述：进展与未来方向

个性化大型语言模型综述：进展与未来方向

专知会员服务

43+阅读 · 2025年2月18日

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

专知会员服务

14+阅读 · 2025年2月14日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

专知会员服务

87+阅读 · 2023年5月10日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

Transformer-XL：释放注意力模型的潜力

Transformer-XL：释放注意力模型的潜力

谷歌开发者

31+阅读 · 2019年2月19日

动态可视化指南：一步步拆解LSTM和GRU

动态可视化指南：一步步拆解LSTM和GRU

论智

17+阅读 · 2018年10月25日

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

专知

52+阅读 · 2018年6月28日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

专知

24+阅读 · 2018年3月31日

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

专知

11+阅读 · 2018年3月29日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Arxiv

0+阅读 · 3月9日

The Limits of Long-Context Reasoning in Automated Bug Fixing

Arxiv

0+阅读 · 3月6日

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Arxiv

0+阅读 · 2月28日

Robustness and Reasoning Fidelity of Large Language Models in Long-Context Code Question Answering

Arxiv

0+阅读 · 2月19日

PrivAct: Internalizing Contextual Privacy Preservation via Multi-Agent Preference Training

Arxiv

0+阅读 · 2月14日

Privacy Control in Conversational LLM Platforms: A Walkthrough Study

Arxiv

0+阅读 · 2月11日

PersonaDual: Balancing Personalization and Objectivity via Adaptive Reasoning

Arxiv

0+阅读 · 2月10日

Focus-LIME: Surgical Interpretation of Long-Context Large Language Models via Proxy-Based Neighborhood Selection

Arxiv

0+阅读 · 2月4日

Beyond speculation: Measuring the growing presence of LLM-generated texts in multilingual disinformation

Arxiv

0+阅读 · 2月4日

Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

0+阅读 · 32分钟前

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

0+阅读 · 37分钟前

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

0+阅读 · 51分钟前

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

15+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

7+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

8+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

8+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

8+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

6+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

13+阅读 · 6月14日

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

14+阅读 · 6月14日

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

16+阅读 · 6月13日

相关VIP内容

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

个性化大型语言模型综述：进展与未来方向

个性化大型语言模型综述：进展与未来方向

专知会员服务

43+阅读 · 2025年2月18日

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

专知会员服务

14+阅读 · 2025年2月14日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

专知会员服务

87+阅读 · 2023年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《通过小型无人机系统将情报能力“作战化”》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《通用大语言模型：无人机指挥与控制接口》最新40页

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

Transformer-XL：释放注意力模型的潜力

Transformer-XL：释放注意力模型的潜力

谷歌开发者

31+阅读 · 2019年2月19日

动态可视化指南：一步步拆解LSTM和GRU

动态可视化指南：一步步拆解LSTM和GRU

论智

17+阅读 · 2018年10月25日

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

专知

52+阅读 · 2018年6月28日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

专知

24+阅读 · 2018年3月31日

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

专知

11+阅读 · 2018年3月29日

相关论文

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Arxiv

0+阅读 · 3月9日

The Limits of Long-Context Reasoning in Automated Bug Fixing

Arxiv

0+阅读 · 3月6日

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Arxiv

0+阅读 · 2月28日

Robustness and Reasoning Fidelity of Large Language Models in Long-Context Code Question Answering

Arxiv

0+阅读 · 2月19日

PrivAct: Internalizing Contextual Privacy Preservation via Multi-Agent Preference Training

Arxiv

0+阅读 · 2月14日

Privacy Control in Conversational LLM Platforms: A Walkthrough Study

Arxiv

0+阅读 · 2月11日

PersonaDual: Balancing Personalization and Objectivity via Adaptive Reasoning

Arxiv

0+阅读 · 2月10日

Focus-LIME: Surgical Interpretation of Long-Context Large Language Models via Proxy-Based Neighborhood Selection

Arxiv

0+阅读 · 2月4日

Beyond speculation: Measuring the growing presence of LLM-generated texts in multilingual disinformation

Arxiv

0+阅读 · 2月4日

Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs

Arxiv

0+阅读 · 2月2日

相关基金

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员