We evaluate GPTutor, an LLM-powered tutoring system for an undergraduate discrete mathematics course. It integrates two LLM-supported tools: a structured proof-review tool that provides embedded feedback on students' written proof attempts, and a chatbot for math questions. In a staggered-access study with 148 students, earlier access was associated with higher homework performance during the interval when only the experimental group could use the system, while we did not observe this performance increase transfer to exam scores. Usage logs show that students with lower self-efficacy and prior exam performance used both components more frequently. Session-level behavioral labels, produced by human coding and scaled using an automated classifier, characterize how students engaged with the chatbot (e.g., answer-seeking or help-seeking). In models controlling for prior performance and self-efficacy, higher chatbot usage and answer-seeking behavior were negatively associated with subsequent midterm performance, whereas proof-review usage showed no detectable independent association. Together, the findings suggest that chatbot-based support alone may not reliably support transfer to independent assessment of math proof-learning outcomes, whereas work-anchored, structured feedback appears less associated with reduced learning.


翻译:我们评估了GPTutor——一个面向本科离散数学课程的大语言模型驱动辅导系统。该系统整合了两项大语言模型支持工具:一个对学生书面证明尝试提供嵌入式反馈的结构化证明审阅工具,以及一个用于数学问题咨询的聊天机器人。在一项包含148名学生的阶梯式访问研究中,早期访问权限与实验组独占系统使用期间更高的作业表现相关,但我们未观察到这种表现提升能迁移至考试成绩。使用日志显示,自我效能感和先前考试成绩较低的学生更频繁地使用两个组件。通过人工编码生成并利用自动分类器扩展的会话级行为标签,刻画了学生使用聊天机器人的行为模式(例如答案寻求型或帮助寻求型)。在控制先前表现和自我效能感的模型中,较高的聊天机器人使用频率和答案寻求行为与后续期中考试成绩呈负相关,而证明审阅工具的使用则未显示出可检测的独立关联。综合来看,研究结果表明:仅依赖聊天机器人支持可能无法可靠促进数学证明学习成果向独立评估的迁移,而以作业任务为锚点、结构化的反馈则较少显示出与学习成效降低的关联。

0
下载
关闭预览

相关内容

数学是关于数量、结构、变化等主题的探索。
《大型语言模型 (LLM) 对比研究》美海军最新报告
专知会员服务
85+阅读 · 2024年6月28日
大语言模型对汽车行业的影响和实践探索
专知会员服务
24+阅读 · 2024年4月27日
【斯坦福博士论文】在语言模型融合多模态知识,225页pdf
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员