Global safety models exhibit strong performance across widely used benchmarks, yet their training data rarely captures the cultural and linguistic nuances of Taiwanese Mandarin. This limitation results in systematic blind spots when interpreting region-specific risks such as localized financial scams, culturally embedded hate speech, and misinformation patterns. To address these gaps, we introduce TS-Bench (Taiwan Safety Benchmark), a standardized evaluation suite for assessing safety performance in Taiwanese Mandarin. TS-Bench contains 400 human-curated prompts spanning critical domains including financial fraud, medical misinformation, social discrimination, and political manipulation. In parallel, we present Breeze Guard, an 8B safety model derived from Breeze 2, our previously released general-purpose Taiwanese Mandarin LLM with strong cultural grounding from its original pre-training corpus. Breeze Guard is obtained through supervised fine-tuning on a large-scale, human-verified synthesized dataset targeting Taiwan-specific harms. Our central hypothesis is that effective safety detection requires the cultural grounding already present in the base model; safety fine-tuning alone is insufficient to introduce new socio linguistic knowledge from scratch. Empirically, Breeze Guard significantly outperforms the leading 8B general-purpose safety model, Granite Guardian 3.3, on TS-Bench (+0.17 overall F1), with particularly large gains in high-context categories such as scam (+0.66 F1) and financial malpractice (+0.43 F1). While the model shows slightly lower performance on English-centric benchmarks (ToxicChat, AegisSafetyTest), this tradeoff is expected for a regionally specialized safety model optimized for Taiwanese Mandarin. Together, Breeze Guard and TS-Bench establish a new foundation for trustworthy AI deployment in Taiwan.


翻译:全球安全模型在广泛使用的基准测试中展现出强劲性能,但其训练数据很少能捕捉台湾普通话的文化与语言细微差别。这一局限导致在解读特定区域风险时存在系统性盲点,例如本地化金融诈骗、文化根植的仇恨言论及错误信息模式。为弥补这些不足,我们引入TS-Bench(台湾安全基准),这是一个用于评估台湾普通话安全性能的标准化测试套件。TS-Bench包含400个人工编制的提示词,涵盖金融欺诈、医疗错误信息、社会歧视和政治操纵等关键领域。同时,我们推出Breeze Guard——一个基于Breeze 2衍生的80亿参数安全模型。Breeze 2是我们先前发布的通用型台湾普通话大语言模型,其原始预训练语料库具备深厚的文化根基。Breeze Guard通过对大规模人工验证的合成数据集进行监督微调获得,该数据集专门针对台湾本土危害构建。我们的核心假设是:有效的安全检测需要基础模型中已有的文化根基;仅靠安全微调不足以从零开始引入新的社会语言学知识。实证表明,Breeze Guard在TS-Bench上显著超越领先的80亿参数通用安全模型Granite Guardian 3.3(整体F1分数提升0.17),在诈骗(F1+0.66)和金融失当行为(F1+0.43)等高语境类别中提升尤为显著。虽然该模型在以英语为中心的基准测试(ToxicChat、AegisSafetyTest)上表现略逊,但这种权衡对于专为台湾普通话优化的区域专业化安全模型是可预期的。Breeze Guard与TS-Bench共同为台湾地区可信人工智能的部署奠定了新基础。

0
下载
关闭预览

相关内容

具身AI安全综述:风险、攻击与防御
专知会员服务
11+阅读 · 5月6日
认知优势:人工智能在国家安全决策中的核心作用
专知会员服务
15+阅读 · 2025年8月16日
《人工智能安全标准体系(V1.0)》(征求意见稿)
专知会员服务
29+阅读 · 2025年3月23日
人工智能如何增强军事监控与边境安全
专知会员服务
21+阅读 · 2025年3月20日
智慧安全产业发展白皮书
专知会员服务
71+阅读 · 2022年8月26日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月9日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
4+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员