Automatic systems are increasingly used to assess the originality of responses in creative tasks. They offer a potential solution to key limitations of human assessment (cost, fatigue, and subjectivity), but there is preliminary evidence of a self-preference bias. Accordingly, automatic systems tend to prefer outcomes that are more closely related to their style, rather than to the human one. In this paper, we investigated how Large Language Models (LLMs) align with human raters in assessing the originality of responses in a divergent thinking task. We analysed 4,813 responses to the Alternate Uses Task produced by higher and lower creative humans and ChatGPT-4o. Human raters were two university students who underwent intensive training. Machine raters were two specialised systems fine-tuned on AUT responses and corresponding human ratings (OCSAI and CLAUS) and ChatGPT-4o, which was prompted with the same instructions as human raters. Results confirmed the presence of a self-preference bias in LLMs. Automatic systems tended to privilege artificial responses. However, this self-preference bias disappeared when the analyses controlled for the idea elaboration. We discuss theoretical and methodological implications of these findings by highlighting future directions for research on creativity assessment.


翻译:暂无翻译

0
下载
关闭预览

相关内容

粤港澳大湾区数字经济研究院是一家面向人工智能、数字经济产业和前沿科技的国际化创新型研究机构,坐落于深圳市深港科技创新合作区内。IDEA正与 MSR、Google Brain、DeepMind、OpenAI 等同行者一起推动人类 AI 技术前沿的发展。IDEA 的使命是立足社会需求,研发颠覆式创新技术并回馈社会,让更多的人从数字经济发展中获益。IDEA 秉承共享共赢共生的开源开放精神,积极营造自由而富有激情的创新工作环境,聚集全世界最聪慧的大脑一起创造人类社会最需要的价值。我们坚持科技擎天,产业立地,相信最好的研究从需求中来,到需求中去,最终惠及广大企业和受众。 IDEA 目前已聚集一批包括院士、世界著名大学教授、世界知名开源系统发明人在内的国际一流技术专家,致力于在 AI 基础技术与开源系统、人工智能金融科技、区块链技术与可信计算、企业级 AI 系统、产业智能物联网与智能机器人等领域研发国际顶尖成果,并培育一批国际领先科技企业,带动深圳乃至大湾区万亿级数字经济产业发展。 AIPT(AI 平台技术研究中心)致力于建设支撑人工智能算法、算力和数据的平台,通过具体项目的研发、实施和部署来推进 AI 技术的落地和产业化,团队成立以来,已发布 ReadPaper 论文阅读平台、BIOS 医疗知识图谱两款产品。AIPT 负责人-谢育涛曾任微软公司技术合伙人兼微软(中国)操作系统工程院院长。谢育涛在微软公司工作 20 余年,先后在微软美国总部的 Microsoft Office 产品组、必应团队、微软亚洲互联网工程院以及微软(中国)操作系统工程院、人工智能和云计算等多个研发部门担任重要职务。他在操作系统、搜索技术、人工智能、应用及服务领域拥有丰富的技术与管理经验。
从Idea构想到论文发表:AI for Research全链路综述与实践
专知会员服务
23+阅读 · 2025年7月21日
《大模型决策制定中的幻觉检测》综述
专知会员服务
46+阅读 · 2024年4月1日
多智能体自主系统《群体自主系统的实时路径规划》248页
【MBSE】基于MBSE的正向设计和产品创新
产业智能官
20+阅读 · 2020年5月1日
AutoML研究综述:让AI学习设计AI
机器之心
15+阅读 · 2019年5月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
Arxiv
0+阅读 · 3月30日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
6+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
11+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
5+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
11+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
从Idea构想到论文发表:AI for Research全链路综述与实践
专知会员服务
23+阅读 · 2025年7月21日
《大模型决策制定中的幻觉检测》综述
专知会员服务
46+阅读 · 2024年4月1日
多智能体自主系统《群体自主系统的实时路径规划》248页
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员