Large language models are increasingly deployed as intelligent tutors, yet research on aligning them for special education remains absent. Recent work has applied reinforcement learning to LLM tutors, but these methods target a generic learner in a single domain (mathematics) and do not address the cognitive and communicative diversity of learners with disabilities. We introduce \emph{Special-R1}, a framework that extends pedagogical RL to special education through two components: (1) a two-dimensional adaptive system prompt that couples a difficulty-based support level with a disability-specific teaching style across five disability profiles; and (2) a persona-aware Thinking Reward whose judge rubric is conditioned on the learner's disability profile. On a persona-augmented test set of 690 multi-turn dialogues, our full model raises persona-aware Fit from 6.75 (generic baseline) to 8.40 (+1.65) and SPED-rubric Helpfulness from 0.720 to 0.768, leading on the four-component Total (2.911, +0.064 over the runner-up) while remaining within 0.01 of the strongest variant on the out-of-domain OpenLearnLM benchmark (8.53). Ablations show that the Thinking Reward becomes effective only in combination with adaptive prompting, and that residual weakness on specific learning disability in mathematics motivates targeted multimodal extensions.


翻译:大型语言模型正越来越多地被部署为智能导师,然而关于使其适配特殊教育的研究仍属空白。近期工作将强化学习应用于LLM导师,但这些方法针对单一领域(数学)中的通用学习者,未能解决残障学习者在认知与沟通方面的多样性。我们提出Special-R1框架,通过两个组件将教学RL扩展至特殊教育领域:(1)一种二维自适应系统提示,将基于困难度的支持级别与五种残障特征对应的残障特异性教学风格相结合;(2)一种基于人格的思考奖励,其评判准则以学习者残障特征为条件。在包含690轮多轮对话的人格增强测试集上,我们的完整模型将人格适配度从6.75(通用基线)提升至8.40(+1.65),SPED准则帮助度从0.720提升至0.768,在四项综合评价总分(2.911,较第二名提升0.064)中领先,同时在域外OpenLearnLM基准测试上与最强变体保持0.01以内的差距(8.53)。消融实验表明,思考奖励仅在与自适应提示结合时有效,且针对特定数学学习障碍的残余弱点促使我们探索有针对性的多模态扩展方案。

0
下载
关闭预览

相关内容

面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
【教程】通过人类反馈的强化学习,77页ppt
专知会员服务
38+阅读 · 2024年10月5日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
层级强化学习概念简介
CreateAMind
21+阅读 · 2019年6月9日
强化学习精品书籍
平均机器
26+阅读 · 2019年1月2日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
层级强化学习概念简介
CreateAMind
21+阅读 · 2019年6月9日
强化学习精品书籍
平均机器
26+阅读 · 2019年1月2日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员