We examine, analyze, and compare four representative creativity measures--perplexity, LLM-as-a-Judge, the Creativity Index (CI; measuring n-gram overlap with web corpora), and syntactic templates (detecting repetition of common part-of-speech patterns)--across the diverse creative domains, such as creative writing, unconventional problem-solving, and research ideation. For each domain, we compile datasets with human-aligned creative and uncreative examples and evaluate each metric's ability to discriminate between the two sets. Our analyses reveal limited consistency both across domains and metrics, as metrics that distinguish creativity in one domain fail in others (e.g., CI correctly distinguishes in creative writing but fails in problem-solving), and different metrics often disagree on the same data points (e.g., CI suggests one set to be more creative, while perplexity indicates the other set to be more creative.) We highlight key limitations, such as perplexity reflecting fluency rather than novelty; LLM-as-a-Judge producing inconsistent judgments under minor prompt variations and exhibiting bias towards particular labels; CI primarily measuring lexical diversity, with high sensitivity to implementation choices; and syntactic templates being ineffective in settings dominated by formulaic language. Our findings underscore the need for more robust, generalizable evaluation frameworks that better align with human judgments of creativity.


翻译:我们针对创意写作、非常规问题解决和研究构思等多样化创意领域,对四种具有代表性的创造力衡量指标——困惑度、LLM-as-a-Judge、创造力指数(CI;衡量与网络语料库的n元语法重叠度)以及句法模板(检测常见词性模式的重复)——进行了检验、分析和比较。针对每个领域,我们收集了与人类判断一致的创意与非创意示例数据集,并评估了各项指标区分这两类样本的能力。我们的分析揭示了跨领域与跨指标间的一致性均存在局限:在某一领域能有效区分创造力的指标在其他领域可能失效(例如CI在创意写作中能正确区分,但在问题解决中则失效),且不同指标对相同数据点的判断常存在分歧(例如CI判定某组更具创意,而困惑度则显示另一组更具创意)。我们重点指出了若干关键局限:困惑度反映的是流畅性而非新颖性;LLM-as-a-Judge在细微提示变动下会产生不一致的判断,并对特定标签存在偏向;CI主要衡量词汇多样性,且对实现方式的选择高度敏感;句法模板在程式化语言主导的场景中效果有限。我们的研究结果强调,需要建立更稳健、可泛化的评估框架,以更好地与人类对创造力的判断保持一致。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
大型语言模型赋能科研创意生成:创造力导向的研究综述
专知会员服务
19+阅读 · 2025年11月13日
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
39+阅读 · 2024年11月20日
论文浅尝 | 重新实验评估知识图谱补全方法
开放知识图谱
28+阅读 · 2020年3月29日
多因素问题分析时,如何确立各因素权重?
人人都是产品经理
75+阅读 · 2020年3月4日
数字素养的研究现状与启示
MOOC
21+阅读 · 2018年3月20日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
现代情感分析方法
算法与数学之美
14+阅读 · 2018年1月12日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员