Large language models (LLMs) are increasingly deployed in privacy-critical and personalization-oriented scenarios, yet the role of context length in shaping privacy leakage and personalization effectiveness remains largely unexplored. We introduce a large-scale benchmark, PAPerBench, to systematically study how increasing context length influences both personalization quality and privacy protection in LLMs. The benchmark comprises approximately 29,000 instances with context lengths ranging from 1K to 256K tokens, yielding a total of 377K evaluation questions. It jointly evaluates personalization performance and privacy risks across diverse scenarios, enabling controlled analysis of long-context model behavior. Extensive evaluations across state-of-the-art LLMs reveal consistent performance degradation in both personalization and privacy as context length increases. We further provide a theoretical analysis of attention dilution under context scaling, explaining this behavior as an inherent limitation of soft attention in fixed-capacity Transformers. The empirical and theoretical findings together suggest a general scaling gap in current models -- long context, less focus. We release the benchmark to support reproducible evaluation and future research on scalable privacy and personalization. Code and data are available at https://github.com/SafeRL-Lab/PAPerBench


翻译:大型语言模型(LLM)正日益部署于隐私敏感和个性化导向的场景中,然而上下文长度在塑造隐私泄露与个性化有效性方面的作用仍很大程度上未被探索。我们提出了一个大规模基准测试PAPerBench,以系统研究在LLM中增加上下文长度如何同时影响个性化质量与隐私保护。该基准包含约29,000个实例,上下文长度覆盖1K至256K个词元,共计生成377K个评估问题。它能够在多样化场景中联合评估个性化性能与隐私风险,从而实现对长上下文模型行为的受控分析。通过对前沿LLM的广泛评估,我们发现随着上下文长度的增加,个性化和隐私保护性能均出现一致性的退化。我们进一步对上下文扩展下的注意力稀释现象进行了理论分析,将这种行为解释为固定容量Transformer中软注意力机制的内在局限。实证与理论发现共同揭示了当前模型存在普遍的扩展鸿沟——长上下文导致弱聚焦。我们公开此基准测试以支持可复现的评估,并推动可扩展隐私与个性化领域的未来研究。代码与数据可在 https://github.com/SafeRL-Lab/PAPerBench 获取。

0
下载
关闭预览

相关内容

个性化大型语言模型综述:进展与未来方向
专知会员服务
43+阅读 · 2025年2月18日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
医疗健康领域的短文本解析探索----文本纠错
深度学习自然语言处理
10+阅读 · 2020年8月5日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
动态可视化指南:一步步拆解LSTM和GRU
论智
17+阅读 · 2018年10月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
个性化大型语言模型综述:进展与未来方向
专知会员服务
43+阅读 · 2025年2月18日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员