编程课程自动评分系统Mark My Works (Mark My Works Autograder for Programming Courses) - 专知论文

会员服务 ·

0

系统 · 课程 · 编程 · 代码 · AI ·

Mark My Works Autograder for Programming Courses

翻译：编程课程自动评分系统Mark My Works

Yiding Qiu,Seyed Mahdi Azimi,Artem Lensky

Large programming courses struggle to provide timely, detailed feedback on student code. We developed Mark My Works, a local autograding system that combines traditional unit testing with LLM-generated explanations. The system uses role-based prompts to analyze submissions, critique code quality, and generate pedagogical feedback while maintaining transparency in its reasoning process. We piloted the system in a 191-student engineering course, comparing AI-generated assessments with human grading on 79 submissions. While AI scores showed no linear correlation with human scores (r = -0.177, p = 0.124), both systems exhibited similar left-skewed distributions, suggesting they recognize comparable quality hierarchies despite different scoring philosophies. The AI system demonstrated more conservative scoring (mean: 59.95 vs 80.53 human) but generated significantly more detailed technical feedback.

翻译：大型编程课程难以对学生代码提供及时、详细的反馈。我们开发了Mark My Works——一个本地自动评分系统，该系统将传统单元测试与LLM生成的解释相结合。该系统通过基于角色的提示分析代码提交、评估代码质量并生成教学反馈，同时保持推理过程的透明度。我们在一个191名学生的工程课程中试运行了该系统，对79份提交作品进行了AI评分与人工评分的比较。虽然AI评分与人工评分未呈现线性相关性（r = -0.177, p = 0.124），但两种评分系统均表现出相似的左偏分布，表明尽管评分理念不同，它们能识别出可比的质量层级。AI系统表现出更保守的评分倾向（均值：59.95 vs 人工评分80.53），但生成了显著更详细的技术反馈。

0

相关内容

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

专知会员服务

14+阅读 · 2024年9月30日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

自动编程：大型语言模型及其他

自动编程：大型语言模型及其他

专知会员服务

36+阅读 · 2024年5月12日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

55+阅读 · 2022年11月2日

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

佐治亚理工2020《数据库系统实现》课程，不可错过！

佐治亚理工2020《数据库系统实现》课程，不可错过！

专知会员服务

24+阅读 · 2020年10月14日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

【2020新书】Python Pro专业实践原则，Practices of the Python Pro，250页pdf

【2020新书】Python Pro专业实践原则，Practices of the Python Pro，250页pdf

专知会员服务

153+阅读 · 2020年1月25日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

推荐系统原理、工程、大厂(Youtube、BAT、TMB)架构干活分享

推荐系统原理、工程、大厂(Youtube、BAT、TMB)架构干活分享

深度学习与NLP

40+阅读 · 2019年9月13日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

自己动手撸一个分布式IM(即时通讯) 系统

自己动手撸一个分布式IM(即时通讯) 系统

51CTO博客

16+阅读 · 2019年3月20日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

专知

28+阅读 · 2018年8月15日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

大数据分析研究组开源Easy Machine Learning系统

大数据分析研究组开源Easy Machine Learning系统

中国科学院网络数据重点实验室

17+阅读 · 2017年6月13日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

不确定分数阶非线性系统Mittag-Leffler自适应控制

国家自然科学基金

1+阅读 · 2016年12月31日

基于格型结构与CS理论的高效数字系统设计与实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机约束下非齐次Markov跳变系统控制器设计

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶微分-代数方程的高精度数值算法

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

Improving Code Generation via Small Language Model-as-a-judge

Arxiv

0+阅读 · 2月12日

EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems

Arxiv

0+阅读 · 2月10日

SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development

Arxiv

0+阅读 · 2月6日

Self-CriTeach: LLM Self-Teaching and Self-Critiquing for Improving Robotic Planning via Automated Domain Generation

Arxiv

0+阅读 · 2月3日

Enhancing Automated Essay Scoring with Three Techniques: Two-Stage Fine-Tuning, Score Alignment, and Self-Training

Arxiv

0+阅读 · 2月2日

ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development

Arxiv

0+阅读 · 2月2日

AI Annotation Orchestration: Evaluating LLM verifiers to Improve the Quality of LLM Annotations in Learning Analytics

Arxiv

0+阅读 · 1月28日

ATLAS: Automated Tree-based Language Analysis System for C and C++ source programs

Arxiv

0+阅读 · 1月27日

RovoDev Code Reviewer: A Large-Scale Online Evaluation of LLM-based Code Review Automation at Atlassian

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

相关VIP内容

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

专知会员服务

14+阅读 · 2024年9月30日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

自动编程：大型语言模型及其他

自动编程：大型语言模型及其他

专知会员服务

36+阅读 · 2024年5月12日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

55+阅读 · 2022年11月2日

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

佐治亚理工2020《数据库系统实现》课程，不可错过！

佐治亚理工2020《数据库系统实现》课程，不可错过！

专知会员服务

24+阅读 · 2020年10月14日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

【2020新书】Python Pro专业实践原则，Practices of the Python Pro，250页pdf

【2020新书】Python Pro专业实践原则，Practices of the Python Pro，250页pdf

专知会员服务

153+阅读 · 2020年1月25日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

推荐系统原理、工程、大厂(Youtube、BAT、TMB)架构干活分享

推荐系统原理、工程、大厂(Youtube、BAT、TMB)架构干活分享

深度学习与NLP

40+阅读 · 2019年9月13日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

自己动手撸一个分布式IM(即时通讯) 系统

自己动手撸一个分布式IM(即时通讯) 系统

51CTO博客

16+阅读 · 2019年3月20日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

专知

28+阅读 · 2018年8月15日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

大数据分析研究组开源Easy Machine Learning系统

大数据分析研究组开源Easy Machine Learning系统

中国科学院网络数据重点实验室

17+阅读 · 2017年6月13日

相关论文

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

Improving Code Generation via Small Language Model-as-a-judge

Arxiv

0+阅读 · 2月12日

EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems

Arxiv

0+阅读 · 2月10日

SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development

Arxiv

0+阅读 · 2月6日

Self-CriTeach: LLM Self-Teaching and Self-Critiquing for Improving Robotic Planning via Automated Domain Generation

Arxiv

0+阅读 · 2月3日

Enhancing Automated Essay Scoring with Three Techniques: Two-Stage Fine-Tuning, Score Alignment, and Self-Training

Arxiv

0+阅读 · 2月2日

ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development

Arxiv

0+阅读 · 2月2日

AI Annotation Orchestration: Evaluating LLM verifiers to Improve the Quality of LLM Annotations in Learning Analytics

Arxiv

0+阅读 · 1月28日

ATLAS: Automated Tree-based Language Analysis System for C and C++ source programs

Arxiv

0+阅读 · 1月27日

RovoDev Code Reviewer: A Large-Scale Online Evaluation of LLM-based Code Review Automation at Atlassian

Arxiv

0+阅读 · 1月20日

相关基金

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

不确定分数阶非线性系统Mittag-Leffler自适应控制

国家自然科学基金

1+阅读 · 2016年12月31日

基于格型结构与CS理论的高效数字系统设计与实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机约束下非齐次Markov跳变系统控制器设计

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶微分-代数方程的高精度数值算法

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员