As Large Language Models (LLMs) integrate into critical global infrastructure, the assumption that safety alignment transfers zero-shot from English to other languages remains a dangerous blind spot. This study presents a systematic audit of three state of the art models (GPT-5.1, Gemini 3 Pro, and Claude 4.5 Opus) using HausaSafety, a novel adversarial dataset grounded in West African threat scenarios (e.g., Yahoo-Yahoo fraud, Dane gun manufacturing). Employing a 2 x 4 factorial design across 1,440 evaluations, we tested the non-linear interaction between language (English vs. Hausa) and temporal framing. Our results challenge the prevailing multilingual safety gap narrative. Instead of a simple degradation in low-resource settings, we identified a mechanism of Complex Interference where safety is determined by the intersection of variables. While models exhibited a Reverse Linguistic with Claude 4.5 Opus proving significantly safer in Hausa (45.0%) than in English (36.7%) due to uncertainty-driven refusal they suffered catastrophic failures in temporal reasoning. We report a profound Temporal Asymmetry, where past-tense framing bypassed defenses (15.6% safe) while future-tense scenarios triggered hyper-conservative refusals (57.2% safe). The magnitude of this volatility is illustrated by a 9.2x disparity between the safest and most vulnerable configurations, proving that safety is not a fixed property but a context-dependent state. We conclude that current models rely on superficial heuristics rather than robust semantic understanding, creating Safety Pockets that leave Global South users exposed to localized harms. We propose Invariant Alignment as a necessary paradigm shift to ensure safety stability across linguistic and temporal shifts.


翻译:随着大语言模型(LLMs)融入全球关键基础设施,关于安全对齐能够从英语零样本迁移至其他语言的假设,仍是一个危险的盲点。本研究使用HausaSafety——一个基于西非威胁场景(例如Yahoo-Yahoo诈骗、Dane gun制造)构建的新型对抗性数据集,对三种前沿模型(GPT-5.1、Gemini 3 Pro和Claude 4.5 Opus)进行了系统性审计。通过采用2 x 4因子设计,在1,440次评估中,我们测试了语言(英语 vs. 豪萨语)与时间框架之间的非线性交互作用。我们的结果挑战了当前流行的多语言安全差距叙事。我们并未观察到在低资源环境下简单的性能退化,而是识别出一种“复杂干扰”机制,其中安全性由变量的交集决定。虽然模型表现出“反向语言效应”——例如Claude 4.5 Opus在豪萨语中(45.0%)的安全性显著高于英语(36.7%),这归因于不确定性驱动的拒绝——但它们在时间推理方面却遭遇了灾难性失败。我们报告了一种深刻的“时间不对称性”:过去时态框架能够绕过防御(安全率15.6%),而将来时态场景则触发了超保守的拒绝(安全率57.2%)。这种波动性的幅度通过最安全与最脆弱配置之间9.2倍的差异得以体现,证明安全性并非固定属性,而是一种依赖于上下文的状态。我们得出结论:当前模型依赖于肤浅的启发式方法,而非稳健的语义理解,从而形成了“安全盲区”,使得全球南方用户暴露于本地化的危害之中。我们提出“不变对齐”作为一种必要的范式转变,以确保安全稳定性跨越语言和时间的变化。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
基于文本的3D视觉定位综述:要素、最新进展与未来方向
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员