Educational LLM tutors face a core AI alignment challenge: they must follow user intent while preserving pedagogical constraints and safety policies. We present an evaluation methodology for prompt-injection defenses in this setting, showing that guardrail design entails explicit trade-offs among adversarial robustness, benign-task usability, and response latency. We evaluate a domain-specific multi-layer safeguard pipeline combining deterministic pattern filters, structural validation, contextual sandboxing, and session-level behavioral checks. On a controlled holdout benchmark, the pipeline reaches low bypass and false positive rates with optimized average latency - an operating point that prioritizes pedagogical usability (zero false positives) while maintaining measurable attack resistance. We provide a reproducible benchmark protocol for head-to-head comparison under identical conditions, including stratified bootstrap confidence intervals, paired McNemar significance tests, multi-seed sensitivity sweeps, and direct evaluation of Prompt Guard and NeMo Guardrails on the same split with unified instrumentation. Results expose operational trade-offs: NeMo reaches 0 percent bypass at 16.22 percent FPR and roughly 1.5s latency, while Prompt Guard yields 38.48 percent bypass with 3.60 percent FPR. The framework supports evidence-based guardrail selection for AI tutoring systems under different institutional risk and usability requirements.


翻译:教育型LLM导师面临核心的AI对齐挑战:它们需兼顾用户意图,同时维护教学约束与安全策略。我们在此场景下提出一种提示注入防御评估方法,表明护栏设计需在对抗鲁棒性、良性任务可用性及响应延迟之间进行明确权衡。我们评估了一条领域特定的多层安全防护管线,该管线融合了确定性模式过滤器、结构验证、上下文沙箱及会话级行为检查。在受控保留测试集上,该管线在优化平均延迟条件下实现了低绕过率与低误报率——这一工作点优先保障教学可用性(零误报),同时保持可量化的攻击抵抗能力。我们提供了可复现的基准测试协议,用于在相同条件下进行头对头比较,包括分层自助置信区间、配对McNemar显著性检验、多种子敏感性扫描,以及基于统一仪表化方法对Prompt Guard与NeMo Guardrails在同一数据划分上的直接评估。实验结果揭示了操作权衡:NeMo在16.22%误报率与约1.5秒延迟下实现0%绕过率,而Prompt Guard在3.60%误报率下产生38.48%绕过率。该框架支持AI辅导系统根据不同机构风险与可用性需求进行基于证据的护栏选择。

0
下载
关闭预览

相关内容

原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员