N-gram novelty is widely used to evaluate language models' ability to generate text outside of their training data. More recently, it has also been adopted as a metric for measuring textual creativity. However, theoretical work on creativity suggests that this approach may be inadequate, as it does not account for creativity's dual nature: novelty (how original the text is) and appropriateness (how sensical and pragmatic it is). We investigate the relationship between this notion of creativity and n-gram novelty through 8,618 expert writer annotations of novelty, pragmaticality, and sensicality via close reading of human- and AI-generated text. We find that while n-gram novelty is positively associated with expert writer-judged creativity, approximately 91% of top-quartile n-gram novel expressions are not judged as creative, cautioning against relying on n-gram novelty alone. Furthermore, unlike in human-written text, higher n-gram novelty in open-source LLMs correlates with lower pragmaticality. In an exploratory study with frontier closed-source models, we additionally confirm that they are less likely to produce creative expressions than humans. Using our dataset, we test whether zero-shot, few-shot, and finetuned models are able to identify expressions perceived as novel by experts (a positive aspect of writing) or non-pragmatic (a negative aspect). Overall, frontier LLMs exhibit performance much higher than random but leave room for improvement, especially struggling to identify non-pragmatic expressions. We further find that LLM-as-a-Judge novelty ratings align with expert writer preferences in an out-of-distribution dataset, more so than an n-gram based metric.


翻译:N元语法新奇性被广泛用于评估语言模型生成超出其训练数据的文本的能力。最近,它也被采纳为衡量文本创造力的指标。然而,关于创造力的理论研究表明,这种方法可能并不充分,因为它没有考虑创造力的双重本质:新奇性(文本的原创程度)和适切性(文本的合理性与实用性)。我们通过对人类和AI生成文本的细读,收集了8,618条专业作家对新奇性、实用性和合理性的标注,研究了这种创造力概念与n元语法新奇性之间的关系。我们发现,虽然n元语法新奇性与专业作家评判的创造力呈正相关,但大约91%处于最高四分位数的n元语法新奇表达并未被判定为具有创造性,这警示我们不应仅依赖n元语法新奇性。此外,与人类撰写的文本不同,开源大型语言模型中更高的n元语法新奇性与更低的实用性相关。在一项针对前沿闭源模型的探索性研究中,我们进一步证实,这些模型比人类更不可能产生创造性的表达。利用我们的数据集,我们测试了零样本、少样本和微调模型是否能够识别被专家认为具有新奇性(写作的积极方面)或不实用(消极方面)的表达。总体而言,前沿大型语言模型的表现远高于随机水平,但仍有改进空间,尤其是在识别不实用表达方面存在困难。我们还发现,在分布外数据集中,LLM-as-a-Judge的新奇性评分与专业作家的偏好更为一致,其表现优于基于n元语法的度量标准。

0
下载
关闭预览

相关内容

大型语言模型赋能科研创意生成:创造力导向的研究综述
专知会员服务
19+阅读 · 2025年11月13日
大型语言模型幻觉的综述
专知会员服务
39+阅读 · 2024年2月15日
【博士论文】学习表征以检测新颖性和异常性,72页pdf
专知会员服务
19+阅读 · 2023年9月30日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
可能是 Android 上最好用的写作 App
少数派
11+阅读 · 2018年12月21日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
Word2Vec与Glove:词嵌入方法的动机和直觉
论智
14+阅读 · 2018年6月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《基于强化学习的反无人机蜂群拦截优先级排序》
基于数据优化的人机协同与机器人僚机
专知会员服务
3+阅读 · 今天2:08
美陆军设想无人系统司令部
专知会员服务
3+阅读 · 4月15日
【博士论文】已对齐人工智能系统的持久脆弱性
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
4+阅读 · 4月15日
相关VIP内容
大型语言模型赋能科研创意生成:创造力导向的研究综述
专知会员服务
19+阅读 · 2025年11月13日
大型语言模型幻觉的综述
专知会员服务
39+阅读 · 2024年2月15日
【博士论文】学习表征以检测新颖性和异常性,72页pdf
专知会员服务
19+阅读 · 2023年9月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员