Prompt injection has emerged as a critical security threat to large language models (LLMs), yet existing studies predominantly focus on single-dimensional attack strategies, such as semantic rewriting or character-level obfuscation, which fail to capture the combined effects of multi-space perturbations in realistic scenarios. In addition, systematic black-box robustness evaluations of recent Chinese LLMs, such as DeepSeek, remain limited. To address these gaps, we propose PromptFuzz-SC, a semantic-character dual-space mutation framework for evaluating LLM robustness against prompt injection. The framework integrates semantic transformations (e.g., paraphrasing and word-order perturbation) with character-level obfuscation (e.g., zero-width insertion and encoding-based mutation), forming a unified and extensible mutation operator library. A hybrid search strategy combining epsilon-greedy exploration and hill-climbing refinement is adopted to efficiently discover high-quality adversarial prompts. We further introduce a unified evaluation protocol based on three metrics: misuse success rate (MSR), Average Queries to Success (AQS), and Stealth. Experimental results on DeepSeek demonstrate that dual-space mutation achieves the strongest overall attack performance among the evaluated strategies, attaining the highest mean MSR (0.189), peak MSR (0.375), and mean Stealth. Compared with semantic-only and character-only mutation, it improves mean MSR by 12.5% and 5.6%, respectively. While not consistently minimizing query cost, the proposed method achieves competitive best-case efficiency and maintains strong imperceptibility, indicating a more favorable balance between attack effectiveness and concealment. These findings highlight the importance of composite mutation strategies for robust red-teaming of LLMs and provide practical insights for the design of multi-layer defense mechanisms.


翻译:提示注入已成为大语言模型(LLMs)的关键安全威胁,然而现有研究主要聚焦于单一维度攻击策略(如语义改写或字符级混淆),未能捕捉真实场景中多空间扰动的联合效应。此外,针对DeepSeek等中文大语言模型的系统性黑盒鲁棒性评估仍十分有限。为弥补这些不足,我们提出PromptFuzz-SC——一个用于评估LLMs对提示注入鲁棒性的语义-字符双空间变异框架。该框架将语义变换(如同义改写和词序扰动)与字符级混淆(如零宽字符插入和基于编码的变异)整合为统一可扩展的变异算子库,并采用融合epsilon-贪婪探索与爬山优化的混合搜索策略高效发现高质量对抗性提示。我们进一步提出基于三个指标的统一评估协议:误用成功率(MSR)、成功平均查询次数(AQS)与隐蔽性(Stealth)。在DeepSeek上的实验表明,双空间变异在所有评估策略中实现了最强的综合攻击性能,获得最高平均MSR(0.189)、峰值MSR(0.375)及平均Stealth值。与纯语义变异和纯字符变异相比,该方法的平均MSR分别提升12.5%和5.6%。尽管未持续优化查询成本,所提方法仍能在最佳情况下实现高效性并保持强不可感知性,体现了攻击效能与隐蔽性之间的更优平衡。这些发现凸显了复合变异策略对于LLMs鲁棒红队测试的重要性,并为多层防御机制的设计提供了实践启示。

0
下载
关闭预览

相关内容

Deep Research(深度研究):系统性综述
专知会员服务
51+阅读 · 2025年12月3日
DeepSeek模型关键创新技术综述
专知会员服务
48+阅读 · 2025年3月21日
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
DeepSeek与其他大型语言模型的比较
专知会员服务
85+阅读 · 2025年2月9日
最全面《DeepSeek R1》技术文章
专知会员服务
90+阅读 · 2025年1月29日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
DeepLabv1 & DeepLabv2 - 空洞卷积(语义分割)
AI研习社
12+阅读 · 2019年3月25日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
Deep Research(深度研究):系统性综述
专知会员服务
51+阅读 · 2025年12月3日
DeepSeek模型关键创新技术综述
专知会员服务
48+阅读 · 2025年3月21日
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
DeepSeek与其他大型语言模型的比较
专知会员服务
85+阅读 · 2025年2月9日
最全面《DeepSeek R1》技术文章
专知会员服务
90+阅读 · 2025年1月29日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员