Designing dialog tutors has been challenging as it involves modeling the diverse and complex pedagogical strategies employed by human tutors. Although there have been significant recent advances in neural conversational systems using large language models (LLMs) and growth in available dialog corpora, dialog tutoring has largely remained unaffected by these advances. In this paper, we rigorously analyze various generative language models on two dialog tutoring datasets for language learning using automatic and human evaluations to understand the new opportunities brought by these advances as well as the challenges we must overcome to build models that would be usable in real educational settings. We find that although current approaches can model tutoring in constrained learning scenarios when the number of concepts to be taught and possible teacher strategies are small, they perform poorly in less constrained scenarios. Our human quality evaluation shows that both models and ground-truth annotations exhibit low performance in terms of equitable tutoring, which measures learning opportunities for students and how engaging the dialog is. To understand the behavior of our models in a real tutoring setting, we conduct a user study using expert annotators and find a significantly large number of model reasoning errors in 45% of conversations. Finally, we connect our findings to outline future work.


翻译:设计对话辅导系统极具挑战性,因为它需要模拟人类教师所采用多样且复杂的教学策略。尽管近年来基于大型语言模型(LLMs)的神经对话系统取得了重大进展,且可用对话语料库不断增长,但对话辅导领域在很大程度上仍未受这些进展的影响。本文在两个语言学习的对话辅导数据集上,利用自动评估与人工评估系统地对多种生成式语言模型进行严格分析,旨在理解这些进步带来的新机遇,以及我们在构建可用于真实教育场景的模型时必须克服的挑战。研究发现,虽然当前方法能在受限的学习场景(如待教授概念数量及教师策略可能范围较小)中有效建模辅导过程,但在非受限场景下表现欠佳。我们的质量评估显示,在衡量学生参与对话机会及对话吸引力的“公平辅导”维度上,模型与人工标注的真实答案均表现低下。为探究模型在真实辅导场景中的行为,我们通过专家标注者开展用户研究,发现45%的对话中存在大量模型推理错误。最后,我们整合研究成果并为未来工作指明方向。

0
下载
关闭预览

相关内容

强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
182+阅读 · 2023年3月24日
Arxiv
23+阅读 · 2021年10月11日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
1+阅读 · 16分钟前
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
1+阅读 · 47分钟前
《打造“黄金舰队”》57页报告
专知会员服务
0+阅读 · 49分钟前
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
相关基金
Top
微信扫码咨询专知VIP会员