重新思考创造力评估：对现有创造力评估方法的批判性分析 (Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations) - 专知论文

会员服务 ·

0

分析 · 一致 · 困惑度 · 失效 · 语料 ·

Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations

翻译：重新思考创造力评估：对现有创造力评估方法的批判性分析

Li-Chun Lu,Miri Liu,Pin-Chun Lu,Yufei Tian,Shao-Hua Sun,Nanyun Peng

from arxiv, EACL 2026

We examine, analyze, and compare four representative creativity measures--perplexity, LLM-as-a-Judge, the Creativity Index (CI; measuring n-gram overlap with web corpora), and syntactic templates (detecting repetition of common part-of-speech patterns)--across the diverse creative domains, such as creative writing, unconventional problem-solving, and research ideation. For each domain, we compile datasets with human-aligned creative and uncreative examples and evaluate each metric's ability to discriminate between the two sets. Our analyses reveal limited consistency both across domains and metrics, as metrics that distinguish creativity in one domain fail in others (e.g., CI correctly distinguishes in creative writing but fails in problem-solving), and different metrics often disagree on the same data points (e.g., CI suggests one set to be more creative, while perplexity indicates the other set to be more creative.) We highlight key limitations, such as perplexity reflecting fluency rather than novelty; LLM-as-a-Judge producing inconsistent judgments under minor prompt variations and exhibiting bias towards particular labels; CI primarily measuring lexical diversity, with high sensitivity to implementation choices; and syntactic templates being ineffective in settings dominated by formulaic language. Our findings underscore the need for more robust, generalizable evaluation frameworks that better align with human judgments of creativity.

翻译：我们针对创意写作、非常规问题解决和研究构思等多样化创意领域，对四种具有代表性的创造力衡量指标——困惑度、LLM-as-a-Judge、创造力指数（CI；衡量与网络语料库的n元语法重叠度）以及句法模板（检测常见词性模式的重复）——进行了检验、分析和比较。针对每个领域，我们收集了与人类判断一致的创意与非创意示例数据集，并评估了各项指标区分这两类样本的能力。我们的分析揭示了跨领域与跨指标间的一致性均存在局限：在某一领域能有效区分创造力的指标在其他领域可能失效（例如CI在创意写作中能正确区分，但在问题解决中则失效），且不同指标对相同数据点的判断常存在分歧（例如CI判定某组更具创意，而困惑度则显示另一组更具创意）。我们重点指出了若干关键局限：困惑度反映的是流畅性而非新颖性；LLM-as-a-Judge在细微提示变动下会产生不一致的判断，并对特定标签存在偏向；CI主要衡量词汇多样性，且对实现方式的选择高度敏感；句法模板在程式化语言主导的场景中效果有限。我们的研究结果强调，需要建立更稳健、可泛化的评估框架，以更好地与人类对创造力的判断保持一致。

0

相关内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

大型语言模型赋能科研创意生成：创造力导向的研究综述

大型语言模型赋能科研创意生成：创造力导向的研究综述

专知会员服务

19+阅读 · 2025年11月13日

《知识增强型大语言模型及面向创造力支持的人机协作框架》233页

《知识增强型大语言模型及面向创造力支持的人机协作框架》233页

专知会员服务

30+阅读 · 2025年9月29日

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

专知会员服务

10+阅读 · 2025年6月8日

重新思考不确定性：大语言模型时代的关键综述与分析

重新思考不确定性：大语言模型时代的关键综述与分析

专知会员服务

39+阅读 · 2024年11月20日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

专知会员服务

42+阅读 · 2024年6月27日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

76+阅读 · 2023年4月26日

【博士论文】《创意生成和评估工具箱：用机器学习、数据驱动和竞赛驱动的方法来支持创意生成》斯德哥尔摩大学2022最新论文

【博士论文】《创意生成和评估工具箱：用机器学习、数据驱动和竞赛驱动的方法来支持创意生成》斯德哥尔摩大学2022最新论文

专知会员服务

21+阅读 · 2022年9月4日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

论文浅尝 | 重新实验评估知识图谱补全方法

论文浅尝 | 重新实验评估知识图谱补全方法

开放知识图谱

28+阅读 · 2020年3月29日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

数字素养的研究现状与启示

数字素养的研究现状与启示

MOOC

21+阅读 · 2018年3月20日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

现代情感分析方法

现代情感分析方法

算法与数学之美

14+阅读 · 2018年1月12日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

战略构想、知识搜寻与双元导向下企业技术创新能力演进：基于适应性演进和协同视角

国家自然科学基金

2+阅读 · 2015年12月31日

内部社会资本与心理所有权对研发团队成员创造力的跨层次影响机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

抽象知识对设计思维的影响机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

创造力的负效应及机制研究：社会网络的视角

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

技术多元化对企业持续创新的影响及其作用机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

社交学习网络环境下的创新能力理论与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

接力创新中大数据价值的评估与分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

求同还是存异？创业合法化行为与机会识别行为对新创企业商业模式设计及绩效的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control

Arxiv

0+阅读 · 2月4日

Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey

Arxiv

0+阅读 · 2月2日

Argument Rarity-based Originality Assessment for AI-Assisted Writing

Arxiv

0+阅读 · 2月2日

Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

Arxiv

0+阅读 · 1月29日

Beyond Divergent Creativity: A Human-Based Evaluation of Creativity in Large Language Models

Arxiv

0+阅读 · 1月28日

Surprisal and Metaphor Novelty Judgments: Moderate Correlations and Divergent Scaling Effects Revealed by Corpus-Based and Synthetic Datasets

Arxiv

0+阅读 · 1月26日

Reflexa: Uncovering How LLM-Supported Reflection Scaffolding Reshapes Creativity in Creative Coding

Arxiv

0+阅读 · 1月25日

Creativity in the Age of AI: Rethinking the Role of Intentional Agency

Arxiv

0+阅读 · 1月22日

Who Owns Creativity and Who Does the Work? Trade-offs in LLM-Supported Research Ideation

Arxiv

0+阅读 · 1月17日

LLM Review: Enhancing Creative Writing via Blind Peer Review Feedback

Arxiv

0+阅读 · 1月12日

VIP会员

文章信息

相关主题

相关VIP内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

大型语言模型赋能科研创意生成：创造力导向的研究综述

大型语言模型赋能科研创意生成：创造力导向的研究综述

专知会员服务

19+阅读 · 2025年11月13日

《知识增强型大语言模型及面向创造力支持的人机协作框架》233页

《知识增强型大语言模型及面向创造力支持的人机协作框架》233页

专知会员服务

30+阅读 · 2025年9月29日

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

专知会员服务

10+阅读 · 2025年6月8日

重新思考不确定性：大语言模型时代的关键综述与分析

重新思考不确定性：大语言模型时代的关键综述与分析

专知会员服务

39+阅读 · 2024年11月20日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

专知会员服务

42+阅读 · 2024年6月27日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

76+阅读 · 2023年4月26日

【博士论文】《创意生成和评估工具箱：用机器学习、数据驱动和竞赛驱动的方法来支持创意生成》斯德哥尔摩大学2022最新论文

【博士论文】《创意生成和评估工具箱：用机器学习、数据驱动和竞赛驱动的方法来支持创意生成》斯德哥尔摩大学2022最新论文

专知会员服务

21+阅读 · 2022年9月4日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

论文浅尝 | 重新实验评估知识图谱补全方法

论文浅尝 | 重新实验评估知识图谱补全方法

开放知识图谱

28+阅读 · 2020年3月29日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

数字素养的研究现状与启示

数字素养的研究现状与启示

MOOC

21+阅读 · 2018年3月20日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

现代情感分析方法

现代情感分析方法

算法与数学之美

14+阅读 · 2018年1月12日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

相关论文

ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control

Arxiv

0+阅读 · 2月4日

Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey

Arxiv

0+阅读 · 2月2日

Argument Rarity-based Originality Assessment for AI-Assisted Writing

Arxiv

0+阅读 · 2月2日

Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

Arxiv

0+阅读 · 1月29日

Beyond Divergent Creativity: A Human-Based Evaluation of Creativity in Large Language Models

Arxiv

0+阅读 · 1月28日

Surprisal and Metaphor Novelty Judgments: Moderate Correlations and Divergent Scaling Effects Revealed by Corpus-Based and Synthetic Datasets

Arxiv

0+阅读 · 1月26日

Reflexa: Uncovering How LLM-Supported Reflection Scaffolding Reshapes Creativity in Creative Coding

Arxiv

0+阅读 · 1月25日

Creativity in the Age of AI: Rethinking the Role of Intentional Agency

Arxiv

0+阅读 · 1月22日

Who Owns Creativity and Who Does the Work? Trade-offs in LLM-Supported Research Ideation

Arxiv

0+阅读 · 1月17日

LLM Review: Enhancing Creative Writing via Blind Peer Review Feedback

Arxiv

0+阅读 · 1月12日

相关基金

战略构想、知识搜寻与双元导向下企业技术创新能力演进：基于适应性演进和协同视角

国家自然科学基金

2+阅读 · 2015年12月31日

内部社会资本与心理所有权对研发团队成员创造力的跨层次影响机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

抽象知识对设计思维的影响机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

创造力的负效应及机制研究：社会网络的视角

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

技术多元化对企业持续创新的影响及其作用机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

社交学习网络环境下的创新能力理论与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

接力创新中大数据价值的评估与分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

求同还是存异？创业合法化行为与机会识别行为对新创企业商业模式设计及绩效的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员