Designing good reflection questions is pedagogically important but time-consuming and unevenly supported across teachers. This paper introduces a reflection-in-reflection framework for automated generation of reflection questions with large language models (LLMs). Our approach coordinates two role-specialized agents, a Student-Teacher and a Teacher-Educator, that engage in a Socratic multi-turn dialogue to iteratively refine a single question given a teacher-specified topic, key concepts, student level, and optional instructional materials. The Student-Teacher proposes candidate questions with brief rationales, while the Teacher-Educator evaluates them along clarity, depth, relevance, engagement, and conceptual interconnections, responding only with targeted coaching questions or a fixed signal to stop the dialogue. We evaluate the framework in an authentic lower-secondary ICT setting on the topic, using GPT-4o-mini as the backbone model and a stronger GPT- 4-class LLM as an external evaluator in pairwise comparisons of clarity, relevance, depth, and overall quality. First, we study how interaction design and context (dynamic vs.fixed iteration counts; presence or absence of student level and materials) affect question quality. Dynamic stopping combined with contextual information consistently outperforms fixed 5- or 10-step refinement, with very long dialogues prone to drift or over-complication. Second, we show that our two-agent protocol produces questions that are judged substantially more relevant and deeper, and better overall, than a one-shot baseline using the same backbone model.


翻译:设计优质的反思问题在教学中至关重要,但耗时且不同教师获得的支持不均。本文提出一种“反思中的反思”框架,用于利用大语言模型自动生成反思问题。我们的方法协调两个角色特化的智能体——学生-教师和教师-教育者——使其围绕教师指定的主题、核心概念、学生水平及可选教学材料,通过苏格拉底式多轮对话迭代优化单个问题。学生-教师提出候选问题并附简要理由,教师-教育者则从清晰度、深度、相关性、参与度及概念关联性等维度进行评估,仅以针对性指导问题或固定终止信号作为回应。我们在真实的初中信息通信技术教学情境中对该框架进行评估,以GPT-4o-mini作为主干模型,并采用更强的GPT-4级别大语言模型作为外部评估器,在清晰度、相关性、深度及整体质量方面进行成对比较。首先,我们研究交互设计与上下文(动态与固定迭代次数;是否包含学生水平与教学材料)如何影响问题质量。动态终止机制结合上下文信息的表现持续优于固定5步或10步优化方案,而过长的对话易导致偏离主题或过度复杂化。其次,我们证明相较于使用相同主干模型的单次生成基线,我们的双智能体协议所产生的问题在相关性、深度及整体质量上均获得显著更高的评价。

0
下载
关闭预览

相关内容

古希腊哲学家,和其学生柏拉图及柏拉图的学生亚里士多德被并称为希腊三哲人。他被后人广泛认为是西方哲学的奠基者。 苏格拉底相信「理想存在于一个只有智者才能了解的世界」。
大语言模型视角下的智能规划方法综述
专知会员服务
136+阅读 · 2024年4月20日
神经问题生成前沿综述
专知会员服务
16+阅读 · 2021年6月5日
人工智能在教育领域的应用探析
MOOC
14+阅读 · 2019年3月16日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
基于面部表情的学习困惑自动识别法
MOOC
10+阅读 · 2018年9月17日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
相关VIP内容
大语言模型视角下的智能规划方法综述
专知会员服务
136+阅读 · 2024年4月20日
神经问题生成前沿综述
专知会员服务
16+阅读 · 2021年6月5日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员