Developing models to automatically score students' written responses to science problems is critical for science education. However, collecting and labeling sufficient student responses for training models is time and cost-consuming. Recent studies suggest that pre-trained language models (PLMs) can be adapted to downstream tasks without fine-tuning with prompts. However, no research has employed such a prompt approach in science education. As student responses are presented with natural language, aligning the scoring procedure as the next sentence prediction task using prompts can skip the costly fine-tuning stage. In this study, we developed a zero-shot approach to automatically score student responses via Matching Exemplars as Next Sentence Prediction (MeNSP). This approach employs no training samples. We first apply MeNSP in scoring three assessment tasks of scientific argumentation and found machine-human scoring agreements, Cohen's Kappa ranges from 0.30 to 0.57, and F1 score ranges from 0.54 to 0.81. To improve the performance, we extend our research to the few-shots setting, either randomly selecting labeled student responses or manually constructing responses to fine-tune the models. We find that one task's performance is improved with more samples, Cohen's Kappa from 0.30 to 0.38, and F1 score from 0.54 to 0.59; for the two others, scoring performance is not improved. We also find that randomly selected few-shots perform better than the human expert-crafted approach. This study suggests that MeNSP can yield referable automatic scoring for student responses while significantly reducing the cost of model training. This method can benefit low-stakes classroom assessment practices in science education. Future research should further explore the applicability of the MeNSP in different types of assessment tasks in science education and improve the model performance.


翻译:开发模型以自动评分学生对科学问题的书面回答,对于科学教育至关重要。然而,收集并标注足够的学生回答以训练模型既耗时又成本高昂。近期研究表明,预训练语言模型可通过提示适应下游任务而无需微调。但尚无研究在科学教育中采用此类提示方法。由于学生回答以自然语言呈现,将评分流程对齐为基于提示的下一句预测任务,可跳过昂贵的微调阶段。本研究提出了一种零样本方法——通过匹配示例作为下一句预测(MeNSP)自动评分学生回答,该方法无需训练样本。我们首先将MeNSP应用于三个科学论证评估任务的评分,发现机器与人工评分的一致性(Cohen's Kappa)介于0.30至0.57之间,F1分数介于0.54至0.81之间。为提升性能,我们将研究扩展至少样本设置,通过随机选取标注学生回答或人工构建回答来微调模型。结果发现,一个任务的评分性能随样本增加而提升(Cohen's Kappa从0.30升至0.38,F1分数从0.54升至0.59),而另外两个任务的评分性能未改善。此外,随机选取的少样本表现优于专家人工构建方法。本研究表明,MeNSP可在显著降低模型训练成本的同时,实现可参考的学生回答自动评分。该方法可惠及科学教育中的低风险课堂评估实践。未来研究应进一步探索MeNSP在科学教育各类评估任务中的适用性,并提升模型性能。

0
下载
关闭预览

相关内容

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务
专知会员服务
18+阅读 · 2022年2月26日
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
22+阅读 · 2022年1月5日
专知会员服务
56+阅读 · 2021年5月10日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
EMNLP 2022 | 基于课程学习的生成式实体分类范式
PaperWeekly
1+阅读 · 2022年11月23日
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
1+阅读 · 2022年8月31日
论文浅尝 | 通过文本到文本神经问题生成的机器理解
开放知识图谱
10+阅读 · 2019年6月30日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
论文笔记 | How NOT To Evaluate Your Dialogue System
科技创新与创业
13+阅读 · 2017年12月23日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月5日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
9+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员