Current language models (LMs) excel at reasoning over prompts using pre-trained knowledge. However, real-world tasks are far more complex and context-dependent: models must learn from task-specific context and leverage new knowledge beyond what is learned during pre-training to reason and resolve tasks. We term this capability context learning, a crucial ability that humans naturally possess but has been largely overlooked. To this end, we introduce CL-bench, a real-world benchmark consisting of 500 complex contexts, 1,899 tasks, and 31,607 verification rubrics, all crafted by experienced domain experts. Each task is designed such that the new content required to resolve it is contained within the corresponding context. Resolving tasks in CL-bench requires models to learn from the context, ranging from new domain-specific knowledge, rule systems, and complex procedures to laws derived from empirical data, all of which are absent from pre-training. This goes far beyond long-context tasks that primarily test retrieval or reading comprehension, and in-context learning tasks, where models learn simple task patterns via instructions and demonstrations. Our evaluations of ten frontier LMs find that models solve only 17.2% of tasks on average. Even the best-performing model, GPT-5.1, solves only 23.7%, revealing that LMs have yet to achieve effective context learning, which poses a critical bottleneck for tackling real-world, complex context-dependent tasks. CL-bench represents a step towards building LMs with this fundamental capability, making them more intelligent and advancing their deployment in real-world scenarios.


翻译:当前的语言模型(LMs)擅长利用预训练知识进行提示推理。然而,现实世界的任务要复杂得多且高度依赖上下文:模型必须从特定任务的上下文中学习,并利用预训练阶段未涵盖的新知识来进行推理和解决问题。我们将这种能力称为上下文学习,这是人类天生具备但长期被忽视的关键能力。为此,我们提出了CL-bench,一个包含500个复杂上下文、1,899项任务和31,607条验证标准的现实世界基准测试集,所有内容均由经验丰富的领域专家精心设计。每项任务的设计都确保解决它所需的新内容完全包含在对应的上下文中。解决CL-bench中的任务要求模型从上下文中学习,涵盖从新的领域特定知识、规则体系、复杂流程到基于经验数据推导出的规律等,这些内容均未在预训练中出现。这远超出了主要测试检索或阅读理解能力的长上下文任务,也超越了上下文学习任务(模型通过指令和示例学习简单的任务模式)。我们对十种前沿语言模型的评估发现,模型平均仅能解决17.2%的任务。即使表现最佳的模型GPT-5.1,其解决率也仅为23.7%,这表明语言模型尚未实现有效的上下文学习,这成为处理现实世界中复杂上下文依赖任务的关键瓶颈。CL-bench代表了朝着构建具备这一基本能力的语言模型迈出的一步,旨在使模型更加智能,并推动其在现实场景中的部署。

0
下载
关闭预览

相关内容

【MIT博士论文】语言模型的推理时学习算法
专知会员服务
30+阅读 · 2025年12月24日
专知会员服务
27+阅读 · 2021年10月12日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月26日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员