This study presents the development of the PsyCogMetrics AI Lab (psycogmetrics.ai), an integrated, cloud-based platform that operationalizes psychometric and cognitive-science methodologies for Large Language Model (LLM) evaluation. Framed as a three-cycle Action Design Science study, the Relevance Cycle identifies key limitations in current evaluation methods and unfulfilled stakeholder needs. The Rigor Cycle draws on kernel theories such as Popperian falsifiability, Classical Test Theory, and Cognitive Load Theory to derive deductive design objectives. The Design Cycle operationalizes these objectives through nested Build-Intervene-Evaluate loops. The study contributes a novel IT artifact, a validated design for LLM evaluation, benefiting research at the intersection of AI, psychology, cognitive science, and the social and behavioral sciences.


翻译:本研究介绍了PsyCogMetrics AI实验室(psycogmetrics.ai)的开发,这是一个集成的云端平台,将心理测量学与认知科学方法操作化,用于大型语言模型评估。研究采用三循环行动设计科学框架:关联性循环识别当前评估方法的关键局限性与未满足的利益相关者需求;严谨性循环借鉴波普尔可证伪性、经典测验理论和认知负荷理论等核心理论,推导出演绎性设计目标;设计循环通过嵌套的“构建-干预-评估”迭代环将这些目标操作化。本研究贡献了一个新颖的信息技术制品——一个经过验证的LLM评估设计方案,有益于人工智能、心理学、认知科学及社会与行为科学交叉领域的研究。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
基于大语言模型智能体的社会认知模拟
专知会员服务
19+阅读 · 2月22日
利用量规奖励训练 AI 共同科学家
专知会员服务
19+阅读 · 1月5日
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
综述AI未来:神经科学启发的类脑计算
人工智能学家
11+阅读 · 2018年4月24日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 4月8日
VIP会员
最新内容
美国军方使用的10种反无人机武器(2026年更新)
专知会员服务
4+阅读 · 今天4:07
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员