Providing scaffolding through educational chatbots built on Large Language Models (LLM) has potential risks and benefits that remain an open area of research. When students navigate impasses, they ask for help by formulating impasse-driven questions. Within interactions with LLM chatbots, such questions shape the user prompts and drive the pedagogical effectiveness of the chatbot's response. This paper focuses on such student questions from two datasets of distinct learning contexts: formative self-study, and summative assessed coursework. We analysed 6,113 messages from both learning contexts, using 11 different LLMs and three human raters to classify student questions using four existing schemas. On the feasibility of using LLMs as raters, results showed moderate-to-good inter-rater reliability, with higher consistency than human raters. The data showed that 'procedural' questions predominated in both learning contexts, but more so when students prepare for summative assessment. These results provide a basis on which to use LLMs for classification of student questions. However, we identify clear limitations in both the ability to classify with schemas and the value of doing so: schemas are limited and thus struggle to accommodate the semantic richness of composite prompts, offering only partial understanding the wider risks and benefits of chatbot integration. In the future, we recommend an analysis approach that captures the nuanced, multi-turn nature of conversation, for example, by applying methods from conversation analysis in discursive psychology.


翻译:通过基于大语言模型(LLM)构建的教育聊天机器人提供教学支架,其潜在风险与益处仍是一个开放的研究领域。当学生遇到学习瓶颈时,他们会通过提出瓶颈驱动的问题来寻求帮助。在与LLM聊天机器人的互动中,此类问题塑造了用户提示,并决定了聊天机器人回复的教学有效性。本文聚焦于来自两种不同学习情境数据集中的学生提问:形成性自主学习与总结性评估课程作业。我们分析了来自两种学习情境的6,113条消息,使用11种不同的LLM模型和三位人类评分员,依据四种现有分类框架对学生提问进行分类。关于使用LLM作为评分员的可行性,结果显示评分者间信度处于中等至良好水平,且一致性高于人类评分员。数据显示,“程序性”问题在两种学习情境中均占主导地位,且在学生准备总结性评估时更为突出。这些结果为使用LLM对学生提问进行分类提供了依据。然而,我们明确指出分类框架的分类能力及其应用价值均存在明显局限:现有框架有限,难以涵盖复合提示的语义丰富性,仅能部分理解聊天机器人整合的更广泛风险与益处。未来,我们建议采用能够捕捉对话中细微、多轮次特性的分析方法,例如应用话语心理学中的会话分析方法。

0
下载
关闭预览

相关内容

Chatbot,聊天机器人。 chatbot是场交互革命,也是一个多技术融合的平台。上图给出了构建一个chatbot需要具备的组件,简单地说chatbot = NLU(Natural Language Understanding) + NLG(Natural Language Generation)。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
投大模型岗?50道大型语言模型(LLM)面试问题汇总
专知会员服务
24+阅读 · 2025年6月7日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
基于大型语言模型的AI聊天机器人的完整综述
专知会员服务
43+阅读 · 2024年6月26日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
开始报名!SMP机器人群聊比赛
哈工大SCIR
13+阅读 · 2019年6月28日
知识图谱 vs. 对话系统专题讨论 - PaperWeekly 社区
PaperWeekly
10+阅读 · 2017年10月18日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
2+阅读 · 35分钟前
《自动化战略情报管控》
专知会员服务
1+阅读 · 今天14:31
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
2+阅读 · 今天14:19
【CMU博士论文】迈向可解释机器学习的理论基础
专知会员服务
2+阅读 · 今天12:23
基于数据优化的人机协同与机器人僚机
专知会员服务
5+阅读 · 今天2:08
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员