Evaluation Framework for AI Creativity: A Case Study Based on Story Generation - 专知论文

会员服务 ·

0

故事生成 · 结构 · 结构化 · 包含 · 呈现 ·

Evaluation Framework for AI Creativity: A Case Study Based on Story Generation

翻译：人工智能创造力评估框架：基于故事生成的案例研究

Pharath Sathya,Yin Jou Huang,Fei Cheng

from arxiv, Work in progress

Evaluating creative text generation remains a challenge because existing reference-based metrics fail to capture the subjective nature of creativity. We propose a structured evaluation framework for AI story generation comprising four components (Novelty, Value, Adherence, and Resonance) and eleven sub-components. Using controlled story generation via ``Spike Prompting'' and a crowdsourced study of 115 readers, we examine how different creative components shape both immediate and reflective human creativity judgments. Our findings show that creativity is evaluated hierarchically rather than cumulatively, with different dimensions becoming salient at different stages of judgment, and that reflective evaluation substantially alters both ratings and inter-rater agreement. Together, these results support the effectiveness of our framework in revealing dimensions of creativity that are obscured by reference-based evaluation.

翻译：评估创造性文本生成仍具挑战性，因为现有基于参考指标的评估方法难以捕捉创造力的主观特性。我们提出了一个结构化的人工智能故事生成评估框架，包含四个核心维度（新颖性、价值性、契合度、共鸣度）及十一个子维度。通过采用"尖峰提示"技术进行受控故事生成，并结合115位读者参与的众包研究，我们探究了不同创造性维度如何影响人类即时性与反思性创造力评判。研究发现：创造力评估呈现层级性而非累积性特征，不同维度在评判的不同阶段具有显著差异性；反思性评估会显著改变评分结果及评分者间一致性。这些结果共同证实了本框架在揭示被基于参考指标的评估方法所遮蔽的创造力维度方面的有效性。

0

相关内容

故事生成

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

大型语言模型赋能科研创意生成：创造力导向的研究综述

大型语言模型赋能科研创意生成：创造力导向的研究综述

专知会员服务

19+阅读 · 2025年11月13日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【新书】生成式人工智能：概念与应用

【新书】生成式人工智能：概念与应用

专知会员服务

48+阅读 · 2025年3月18日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

专知会员服务

24+阅读 · 2024年6月29日

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

专知会员服务

40+阅读 · 2024年4月19日

如何提示？【2023新书】掌握生成式AI文本提示：创意、内容创建和问题解决的实用指南

如何提示？【2023新书】掌握生成式AI文本提示：创意、内容创建和问题解决的实用指南

专知会员服务

90+阅读 · 2023年9月20日

【ChatGPT系列报告】斯坦福HAT《生成式人工智能》报告，李飞飞、Percy Liang等大牛评述GAI

【ChatGPT系列报告】斯坦福HAT《生成式人工智能》报告，李飞飞、Percy Liang等大牛评述GAI

专知会员服务

135+阅读 · 2023年3月15日

【英国萨里大学】神经文本生成的研究进展:任务无关的综述，Recent Advances in Neural Text Generation: A Task-Agnostic Survey

【英国萨里大学】神经文本生成的研究进展:任务无关的综述，Recent Advances in Neural Text Generation: A Task-Agnostic Survey

专知会员服务

19+阅读 · 2022年3月8日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

专知

18+阅读 · 2022年9月3日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

《人工智能之认知图谱》重磅发布（附报告全文下载）

《人工智能之认知图谱》重磅发布（附报告全文下载）

学术头条

42+阅读 · 2020年8月28日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

支持产品创新设计的大数据知识萃取研究

国家自然科学基金

8+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

内部社会资本与心理所有权对研发团队成员创造力的跨层次影响机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

创造力的负效应及机制研究：社会网络的视角

国家自然科学基金

1+阅读 · 2015年12月31日

互联网环境下新创企业创业导向的生成机理及演化研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

社交学习网络环境下的创新能力理论与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

接力创新中大数据价值的评估与分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

Hallucination or Creativity: How to Evaluate AI-Generated Scientific Stories?

Arxiv

0+阅读 · 2月2日

Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey

Arxiv

0+阅读 · 2月2日

Argument Rarity-based Originality Assessment for AI-Assisted Writing

Arxiv

0+阅读 · 2月2日

Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

Arxiv

0+阅读 · 1月29日

Evaluating Generative AI in the Lab: Methodological Challenges and Guidelines

Arxiv

0+阅读 · 1月28日

The Case for "Thick Evaluations" of Cultural Representation in AI

Arxiv

0+阅读 · 1月20日

Creating Disability Story Videos with Generative AI: Motivation, Expression, and Sharing

Arxiv

0+阅读 · 1月18日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月15日

NoveltyRank: A Retrieval-Augmented Framework for Conceptual Novelty Estimation in AI Research

Arxiv

0+阅读 · 1月3日

Progressive Ideation using an Agentic AI Framework for Human-AI Co-Creation

Arxiv

0+阅读 · 1月1日

VIP会员

文章信息

相关主题

最新内容

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

1+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

3+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

3+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

3+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

1+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

4+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

3+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

4+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

3+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

8+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

7+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

5+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

7+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

7+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

6+阅读 · 6月24日

相关VIP内容

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

大型语言模型赋能科研创意生成：创造力导向的研究综述

大型语言模型赋能科研创意生成：创造力导向的研究综述

专知会员服务

19+阅读 · 2025年11月13日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【新书】生成式人工智能：概念与应用

【新书】生成式人工智能：概念与应用

专知会员服务

48+阅读 · 2025年3月18日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

专知会员服务

24+阅读 · 2024年6月29日

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

专知会员服务

40+阅读 · 2024年4月19日

如何提示？【2023新书】掌握生成式AI文本提示：创意、内容创建和问题解决的实用指南

如何提示？【2023新书】掌握生成式AI文本提示：创意、内容创建和问题解决的实用指南

专知会员服务

90+阅读 · 2023年9月20日

【ChatGPT系列报告】斯坦福HAT《生成式人工智能》报告，李飞飞、Percy Liang等大牛评述GAI

【ChatGPT系列报告】斯坦福HAT《生成式人工智能》报告，李飞飞、Percy Liang等大牛评述GAI

专知会员服务

135+阅读 · 2023年3月15日

【英国萨里大学】神经文本生成的研究进展:任务无关的综述，Recent Advances in Neural Text Generation: A Task-Agnostic Survey

【英国萨里大学】神经文本生成的研究进展:任务无关的综述，Recent Advances in Neural Text Generation: A Task-Agnostic Survey

专知会员服务

19+阅读 · 2022年3月8日

热门VIP内容

开通专知VIP会员享更多权益服务

网状网络及其在军事领域的运用

无美国参与的欧洲战争方式（万字长文）

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

专知

18+阅读 · 2022年9月3日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

《人工智能之认知图谱》重磅发布（附报告全文下载）

《人工智能之认知图谱》重磅发布（附报告全文下载）

学术头条

42+阅读 · 2020年8月28日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

相关论文

Hallucination or Creativity: How to Evaluate AI-Generated Scientific Stories?

Arxiv

0+阅读 · 2月2日

Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey

Arxiv

0+阅读 · 2月2日

Argument Rarity-based Originality Assessment for AI-Assisted Writing

Arxiv

0+阅读 · 2月2日

Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

Arxiv

0+阅读 · 1月29日

Evaluating Generative AI in the Lab: Methodological Challenges and Guidelines

Arxiv

0+阅读 · 1月28日

The Case for "Thick Evaluations" of Cultural Representation in AI

Arxiv

0+阅读 · 1月20日

Creating Disability Story Videos with Generative AI: Motivation, Expression, and Sharing

Arxiv

0+阅读 · 1月18日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月15日

NoveltyRank: A Retrieval-Augmented Framework for Conceptual Novelty Estimation in AI Research

Arxiv

0+阅读 · 1月3日

Progressive Ideation using an Agentic AI Framework for Human-AI Co-Creation

Arxiv

0+阅读 · 1月1日

相关基金

支持产品创新设计的大数据知识萃取研究

国家自然科学基金

8+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

内部社会资本与心理所有权对研发团队成员创造力的跨层次影响机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

创造力的负效应及机制研究：社会网络的视角

国家自然科学基金

1+阅读 · 2015年12月31日

互联网环境下新创企业创业导向的生成机理及演化研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

社交学习网络环境下的创新能力理论与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

接力创新中大数据价值的评估与分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员