Emoji-Based Jailbreaking of Large Language Models - 专知论文

会员服务 ·

0

越狱 · 攻击 · 对齐 · 安全对齐 · 越狱攻击 ·

Emoji-Based Jailbreaking of Large Language Models

翻译：基于表情符号的大型语言模型越狱攻击

M P V S Gopinadh,S Mahaboob Hussain

from arxiv, 7 pages, 2 figures

Large Language Models (LLMs) are integral to modern AI applications, but their safety alignment mechanisms can be bypassed through adversarial prompt engineering. This study investigates emoji-based jailbreaking, where emoji sequences are embedded in textual prompts to trigger harmful and unethical outputs from LLMs. We evaluated 50 emoji-based prompts on four open-source LLMs: Mistral 7B, Qwen 2 7B, Gemma 2 9B, and Llama 3 8B. Metrics included jailbreak success rate, safety alignment adherence, and latency, with responses categorized as successful, partial and failed. Results revealed model-specific vulnerabilities: Gemma 2 9B and Mistral 7B exhibited 10 % success rates, while Qwen 2 7B achieved full alignment (0% success). A chi-square test (chi^2 = 32.94, p < 0.001) confirmed significant inter-model differences. While prior works focused on emoji attacks targeting safety judges or classifiers, our empirical analysis examines direct prompt-level vulnerabilities in LLMs. The results reveal limitations in safety mechanisms and highlight the necessity for systematic handling of emoji-based representations in prompt-level safety and alignment pipelines.

翻译：大型语言模型（LLMs）是现代人工智能应用的核心组成部分，但其安全对齐机制可能通过对抗性提示工程被绕过。本研究探讨了基于表情符号的越狱攻击，即通过在文本提示中嵌入表情符号序列来触发LLMs产生有害及不道德的输出。我们在四个开源LLM（Mistral 7B、Qwen 2 7B、Gemma 2 9B和Llama 3 8B）上评估了50个基于表情符号的提示。评估指标包括越狱成功率、安全对齐遵循度及延迟，并将响应分类为成功、部分成功与失败。结果揭示了模型特定的脆弱性：Gemma 2 9B与Mistral 7B表现出10%的越狱成功率，而Qwen 2 7B实现了完全对齐（成功率0%）。卡方检验（χ² = 32.94, p < 0.001）证实了模型间存在显著差异。先前研究主要关注针对安全判别器或分类器的表情符号攻击，而我们的实证分析则考察了LLMs在提示层面的直接脆弱性。研究结果揭示了现有安全机制的局限性，并强调了在提示层安全对齐流程中系统化处理表情符号表征的必要性。

0

相关内容

【CMU博士论文】大型语言模型的隐性特性

【CMU博士论文】大型语言模型的隐性特性

专知会员服务

15+阅读 · 2025年10月18日

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

大语言模型越狱攻击：模型、根因及其攻防演化

大语言模型越狱攻击：模型、根因及其攻防演化

专知会员服务

22+阅读 · 2025年4月28日

大语言模型越狱攻击: 模型、根因及其攻防演化

大语言模型越狱攻击: 模型、根因及其攻防演化

专知会员服务

24+阅读 · 2025年2月16日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

专知会员服务

45+阅读 · 2024年3月12日

【2024新书】大型语言模型安全开发者手册，250页pdf

【2024新书】大型语言模型安全开发者手册，250页pdf

专知会员服务

76+阅读 · 2024年2月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大型语言模型对齐

大型语言模型对齐

专知会员服务

120+阅读 · 2023年9月27日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【Hugging Face硬核书】Transformer自然语言处理(Hugging Face)：构建语言应用

【Hugging Face硬核书】Transformer自然语言处理(Hugging Face)：构建语言应用

专知

34+阅读 · 2022年4月7日

论文盘点：人脸表情识别解析

论文盘点：人脸表情识别解析

PaperWeekly

13+阅读 · 2020年7月26日

基于Hugging Face的Transformer库，300行实现命名实体识别

基于Hugging Face的Transformer库，300行实现命名实体识别

专知

119+阅读 · 2020年2月25日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

从 Word Embedding 到 Bert：一起肢解 Bert！

从 Word Embedding 到 Bert：一起肢解 Bert！

人工智能头条

17+阅读 · 2018年12月11日

人脸表情分类与识别：人脸检测+情绪分类

人脸表情分类与识别：人脸检测+情绪分类

北京思腾合力科技有限公司

27+阅读 · 2017年12月18日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

恐惧、高兴微表情识别的认知神经机制

国家自然科学基金

1+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Pattern Enhanced Multi-Turn Jailbreaking: Exploiting Structural Vulnerabilities in Large Language Models

Arxiv

0+阅读 · 2月5日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月30日

Persona Jailbreaking in Large Language Models

Arxiv

0+阅读 · 1月23日

Ethical Risks in Deploying Large Language Models: An Evaluation of Medical Ethics Jailbreaking

Arxiv

0+阅读 · 1月19日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月15日

Small Symbols, Big Risks: Exploring Emoticon Semantic Confusion in Large Language Models

Arxiv

0+阅读 · 1月12日

The Echo Chamber Multi-Turn LLM Jailbreak

Arxiv

0+阅读 · 1月9日

Jailbreaking Large Language Models through Iterative Tool-Disguised Attacks via Reinforcement Learning

Arxiv

0+阅读 · 1月9日

Knowledge-Driven Multi-Turn Jailbreaking on Large Language Models

Arxiv

0+阅读 · 1月9日

Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

最新内容

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

5+阅读 · 今天8:46

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

3+阅读 · 今天7:41

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

2+阅读 · 今天7:22

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

6+阅读 · 今天6:04

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

8+阅读 · 今天5:37

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

6+阅读 · 今天5:35

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

2+阅读 · 今天5:24

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

2+阅读 · 今天5:18

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

2+阅读 · 今天3:25

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

14+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

3+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

4+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

7+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

相关VIP内容

【CMU博士论文】大型语言模型的隐性特性

【CMU博士论文】大型语言模型的隐性特性

专知会员服务

15+阅读 · 2025年10月18日

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

大语言模型越狱攻击：模型、根因及其攻防演化

大语言模型越狱攻击：模型、根因及其攻防演化

专知会员服务

22+阅读 · 2025年4月28日

大语言模型越狱攻击: 模型、根因及其攻防演化

大语言模型越狱攻击: 模型、根因及其攻防演化

专知会员服务

24+阅读 · 2025年2月16日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

专知会员服务

45+阅读 · 2024年3月12日

【2024新书】大型语言模型安全开发者手册，250页pdf

【2024新书】大型语言模型安全开发者手册，250页pdf

专知会员服务

76+阅读 · 2024年2月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大型语言模型对齐

大型语言模型对齐

专知会员服务

120+阅读 · 2023年9月27日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

热门VIP内容

开通专知VIP会员享更多权益服务

战场之外的较量：美伊冲突中的认知战与心理博弈

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

以色列军事技术对美国军力发展的持续性赋能

俄乌战争中乌克兰防空能力演变与见解（中文版）

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【Hugging Face硬核书】Transformer自然语言处理(Hugging Face)：构建语言应用

【Hugging Face硬核书】Transformer自然语言处理(Hugging Face)：构建语言应用

专知

34+阅读 · 2022年4月7日

论文盘点：人脸表情识别解析

论文盘点：人脸表情识别解析

PaperWeekly

13+阅读 · 2020年7月26日

基于Hugging Face的Transformer库，300行实现命名实体识别

基于Hugging Face的Transformer库，300行实现命名实体识别

专知

119+阅读 · 2020年2月25日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

从 Word Embedding 到 Bert：一起肢解 Bert！

从 Word Embedding 到 Bert：一起肢解 Bert！

人工智能头条

17+阅读 · 2018年12月11日

人脸表情分类与识别：人脸检测+情绪分类

人脸表情分类与识别：人脸检测+情绪分类

北京思腾合力科技有限公司

27+阅读 · 2017年12月18日

相关论文

Pattern Enhanced Multi-Turn Jailbreaking: Exploiting Structural Vulnerabilities in Large Language Models

Arxiv

0+阅读 · 2月5日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月30日

Persona Jailbreaking in Large Language Models

Arxiv

0+阅读 · 1月23日

Ethical Risks in Deploying Large Language Models: An Evaluation of Medical Ethics Jailbreaking

Arxiv

0+阅读 · 1月19日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月15日

Small Symbols, Big Risks: Exploring Emoticon Semantic Confusion in Large Language Models

Arxiv

0+阅读 · 1月12日

The Echo Chamber Multi-Turn LLM Jailbreak

Arxiv

0+阅读 · 1月9日

Jailbreaking Large Language Models through Iterative Tool-Disguised Attacks via Reinforcement Learning

Arxiv

0+阅读 · 1月9日

Knowledge-Driven Multi-Turn Jailbreaking on Large Language Models

Arxiv

0+阅读 · 1月9日

Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?

Arxiv

0+阅读 · 2025年12月30日

相关基金

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

恐惧、高兴微表情识别的认知神经机制

国家自然科学基金

1+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员