A key component of creativity is associative reasoning: the ability to draw novel yet meaningful connections between concepts. We introduce CREATE, a benchmark designed to evaluate models' capacity for creative associative reasoning. CREATE requires models to generate sets of paths connecting concepts in a model's parametric knowledge. Paths should have high specificity (distinctiveness and closeness of the concept connection) and high diversity (dissimilarity from other paths), and models are scored more highly if they produce a larger set of strong, diverse paths. This task shares demands of real creativity tasks like hypothesis generation, including an extremely large search space, but enables collection of a sizable benchmark with objective answer grading. Evaluation of frontier models shows that the strongest models achieve higher creative utility than others, with the high multiplicity of answers and complexity of the search making benchmark saturation difficult to achieve. Furthermore, our results illustrate that thinking models are not always more effective on our task, even with high token budgets. Recent approaches for creative prompting give some but limited additional improvement. CREATE provides a sandbox for developing new methods to improve models' capacity for associative creativity.


翻译:创造力的一个关键组成部分是联想推理:在概念之间建立新颖且有意义的联系的能力。我们提出了CREATE基准测试,旨在评估模型的创造性联想推理能力。CREATE要求模型生成连接其参数知识中概念的路径集合。这些路径应具备高特异性(概念联系的独特性和紧密性)与高多样性(与其他路径的差异性),且模型若能生成更大规模的高质量多样化路径集合,将获得更高评分。该任务与假设生成等实际创造性任务具有相似需求,包括极大的搜索空间,但能够通过客观答案评分收集大规模基准数据。对前沿模型的评估表明,最强模型能获得比其他模型更高的创造性效用,但由于答案的高度多重性和搜索复杂性,基准饱和难以实现。此外,我们的结果表明,即使在高令牌预算下,思维模型在我们的任务中并不总是更有效。近期提出的创造性提示方法虽能带来一定改进,但提升有限。CREATE为开发新方法以提升模型的联想创造力提供了实验平台。

0
下载
关闭预览

相关内容

联想集团有限公司,是中国一家总部设在北京市和美国北卡罗莱纳州罗利市的跨国科技公司,成立于1984年,由中国科学院计算技术研究所投资20万元人民币、11名科技人员创办,当时称为“中国科学院计算所新技术发展公司”。1989年,更名为“北京联想计算机集团公司”。 维基百科
大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
大型语言模型赋能科研创意生成:创造力导向的研究综述
专知会员服务
19+阅读 · 2025年11月13日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
【MBSE】基于MBSE的正向设计和产品创新
产业智能官
20+阅读 · 2020年5月1日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
1+阅读 · 今天15:35
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员