As Large Language Models (LLMs) integrate into critical global infrastructure, the assumption that safety alignment transfers zero-shot from English to other languages remains a dangerous blind spot. This study presents a systematic audit of three state of the art models (GPT-5.1, Gemini 3 Pro, and Claude 4.5 Opus) using HausaSafety, a novel adversarial dataset grounded in West African threat scenarios (e.g., Yahoo-Yahoo fraud, Dane gun manufacturing). Employing a 2 x 4 factorial design across 1,440 evaluations, we tested the non-linear interaction between language (English vs. Hausa) and temporal framing. Our results challenge the narrative of the multilingual safety gap. Instead of a simple degradation in low-resource settings, we identified a complex interference mechanism in which safety is determined by the intersection of variables. Although the models exhibited a reverse linguistic vulnerability with Claude 4.5 Opus proving significantly safer in Hausa (45.0%) than in English (36.7%) due to uncertainty-driven refusal, they suffered catastrophic failures in temporal reasoning. We report a profound Temporal Asymmetry, where past-tense framing bypassed defenses (15.6% safe) while future-tense scenarios triggered hyper-conservative refusals (57.2% safe). The magnitude of this volatility is illustrated by a 9.2x disparity between the safest and most vulnerable configurations, proving that safety is not a fixed property but a context-dependent state. We conclude that current models rely on superficial heuristics rather than robust semantic understanding, creating Safety Pockets that leave Global South users exposed to localized harms. We propose Invariant Alignment as a necessary paradigm shift to ensure safety stability across linguistic and temporal shifts.


翻译:随着大语言模型(LLMs)融入全球关键基础设施,关于其安全对齐能力能够从英语零样本迁移至其他语言的假设,仍是一个危险的盲区。本研究使用HausaSafety——一个基于西非威胁场景(如“雅虎-雅虎”诈骗、丹恩枪制造)构建的新型对抗性数据集,对三种前沿模型(GPT-5.1、Gemini 3 Pro和Claude 4.5 Opus)进行了系统性审计。通过采用2×4因子设计,在1,440次评估中,我们检验了语言(英语 vs. 豪萨语)与时间框架之间的非线性交互作用。我们的结果挑战了关于多语言安全差距的既有叙事。研究并未发现简单的低资源环境性能退化,而是识别出一种复杂的干扰机制,其中安全性由变量的交集决定。尽管模型表现出一种反向的语言脆弱性——例如Claude 4.5 Opus在豪萨语中(45.0%)因不确定性驱动的拒绝而显著比在英语中(36.7%)更安全——但它们在时间推理方面却遭遇了灾难性失败。我们报告了一种深刻的时间不对称性:过去时态框架会绕过防御(安全率15.6%),而将来时态场景则会触发过度保守的拒绝(安全率57.2%)。这种波动性的严重程度体现在最安全与最脆弱配置之间存在9.2倍的差距,证明安全性并非固定属性,而是一种依赖于上下文的状态。我们的结论是,当前模型依赖的是表面启发式方法而非稳健的语义理解,从而形成了“安全盲区”,使全球南方用户暴露于本地化危害之中。我们提出“不变对齐”作为一种必要的范式转变,以确保安全稳定性跨越语言和时间的变化。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员