As the world becomes increasingly saturated with AI-generated content, disinformation, and algorithmic persuasion, critical thinking - the capacity to evaluate evidence, detect unreliable claims, and exercise independent judgment - is becoming a defining human skill. Developing critical thinking skills through timely assessment and feedback is crucial; however, there has not been extensive work in educational data mining on defining, measuring, and supporting critical thinking. In this paper, we investigate the feasibility of measuring "subskills" that underlie critical thinking. We ground our work in an authentic task where students operationalize critical thinking by writing argumentative essays. We developed a coding rubric based on an established skills progression and completed human coding for a corpus of student essays. We then evaluated three distinct approaches to automated scoring: zero-shot prompting, few-shot prompting, and supervised fine-tuning, implemented across three large language models (GPT-5, Llama 3.1 8B, and ModernBERT). Fine-tuning Llama 3.1 8B achieved the best results and demonstrated particular strength on subskills with highly separable proficiency levels with balanced labels across levels, while lower performance was observed for subskills that required detection of subtle distinctions between proficiency levels or imbalanced labels. Our exploratory work represents an initial step toward scalable assessment of critical thinking skills across authentic educational contexts. Future research should continue to combine automated critical thinking assessment with human validation to more accurately detect and measure dynamic, higher-order thinking skills.


翻译:随着世界日益充斥着人工智能生成的内容、虚假信息和算法驱动的说服手段,批判性思维——即评估证据、识别不可靠主张并行使独立判断的能力——正成为一项决定性的人类技能。通过及时评估与反馈来培养批判性思维能力至关重要;然而,在教育数据挖掘领域,对于如何定义、测量及支持批判性思维的研究尚不充分。本文探讨了测量构成批判性思维基础的“子技能”的可行性。我们将研究工作建立在一项真实任务之上,即学生通过撰写议论文来实践批判性思维。我们基于一个已确立的技能进阶框架开发了编码评分标准,并对一个学生作文语料库完成了人工编码。随后,我们评估了三种不同的自动化评分方法:零样本提示、少样本提示和监督微调,并在三种大语言模型(GPT-5、Llama 3.1 8B 和 ModernBERT)上进行了实现。微调后的 Llama 3.1 8B 取得了最佳效果,并在那些熟练度等级高度可分且各等级标签分布均衡的子技能上表现出色;而对于需要检测熟练度等级间细微差异或标签分布不均衡的子技能,其表现则较低。我们的探索性研究代表了迈向在真实教育场景中规模化评估批判性思维技能的初步尝试。未来的研究应继续将自动化批判性思维评估与人工验证相结合,以更准确地检测和测量动态的高阶思维能力。

0
下载
关闭预览

相关内容

机器或装置在无人干预的情况下按规定的程序或指令自动进行操作或控制的过程, 是一门涉及学科较多、应用广泛的综合性科学技术。
大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
人工智能在教育领域的应用探析
MOOC
14+阅读 · 2019年3月16日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员