Large language models (LLMs) have advanced the development of personalized learning in education. However, their inherent generation mechanisms often produce homogeneous responses to identical prompts. This one-size-fits-all mechanism overlooks the substantial heterogeneity in students cognitive and psychological, thereby posing potential safety risks to vulnerable groups. Existing safety evaluations primarily rely on context-independent metrics such as factual accuracy, bias, or toxicity, which fail to capture the divergent harms that the same response might cause across different student attributes. To address this gap, we propose the concept of Student-Tailored Personalized Safety and construct CASTLE based on educational theories. This benchmark covers 15 educational safety risks and 14 student attributes, comprising 92,908 bilingual scenarios. We further design three evaluation metrics: Risk Sensitivity, measuring the model ability to detect risks; Emotional Empathy, evaluating the model capacity to recognize student states; and Student Alignment, assessing the match between model responses and student attributes. Experiments on 18 SOTA LLMs demonstrate that CASTLE poses a significant challenge: all models scored below an average safety rating of 2.3 out of 5, indicating substantial deficiencies in personalized safety assurance.


翻译:大语言模型(LLMs)推动了教育领域个性化学习的发展。然而,其固有的生成机制往往对相同提示产生同质化响应。这种“一刀切”的机制忽视了学生在认知与心理层面的显著异质性,从而对弱势群体构成潜在安全风险。现有安全评估主要依赖事实准确性、偏见或毒性等与上下文无关的指标,无法捕捉同一响应在不同学生属性下可能造成的差异性危害。为填补这一空白,我们提出“面向学生的个性化安全性”概念,并基于教育理论构建了CASTLE基准。该基准涵盖15类教育安全风险与14种学生属性,包含92,908个双语场景。我们进一步设计了三项评估指标:风险敏感性(衡量模型识别风险的能力)、情感共情(评估模型感知学生状态的能力)以及学生对齐度(评估模型响应与学生属性的匹配程度)。在18个前沿大语言模型上的实验表明,CASTLE构成了显著挑战:所有模型在5分制下的平均安全评分均低于2.3分,表明其在个性化安全保障方面存在严重不足。

0
下载
关闭预览

相关内容

158页!天大等最新《大型语言模型安全:全面综述》
专知会员服务
49+阅读 · 2024年12月24日
大规模语言模型的个性化:综述
专知会员服务
43+阅读 · 2024年11月4日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员