The Echo Chamber Multi-Turn LLM Jailbreak - 专知论文

会员服务 ·

0

攻击 · 越狱 · echo回声（移动应用） · 回声室 · Chatbot ·

The Echo Chamber Multi-Turn LLM Jailbreak

翻译：回声室多轮大型语言模型越狱攻击

Ahmad Alobaid,Martí Jordà Roca,Carlos Castillo,Joan Vendrell

The availability of Large Language Models (LLMs) has led to a new generation of powerful chatbots that can be developed at relatively low cost. As companies deploy these tools, security challenges need to be addressed to prevent financial loss and reputational damage. A key security challenge is jailbreaking, the malicious manipulation of prompts and inputs to bypass a chatbot's safety guardrails. Multi-turn attacks are a relatively new form of jailbreaking involving a carefully crafted chain of interactions with a chatbot. We introduce Echo Chamber, a new multi-turn attack using a gradual escalation method. We describe this attack in detail, compare it to other multi-turn attacks, and demonstrate its performance against multiple state-of-the-art models through extensive evaluation.

翻译：大型语言模型（LLMs）的普及催生了新一代功能强大且开发成本相对较低的聊天机器人。随着企业广泛部署此类工具，必须解决相应的安全挑战以避免经济损失和声誉损害。其中关键的安全挑战是越狱攻击——即通过恶意操纵提示词与输入来绕过聊天机器人的安全防护机制。多轮攻击作为一种相对新颖的越狱形式，涉及与聊天机器人进行精心设计的连续交互链。本文提出"回声室"攻击，这是一种采用渐进式升级策略的新型多轮攻击方法。我们将详细阐述该攻击机制，与其他多轮攻击进行对比，并通过大量实验评估其在多个前沿模型上的攻击效果。

0

相关内容

大语言模型越狱攻击：模型、根因及其攻防演化

大语言模型越狱攻击：模型、根因及其攻防演化

专知会员服务

22+阅读 · 2025年4月28日

大语言模型越狱攻击: 模型、根因及其攻防演化

大语言模型越狱攻击: 模型、根因及其攻防演化

专知会员服务

24+阅读 · 2025年2月16日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

专知会员服务

45+阅读 · 2024年3月12日

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

专知会员服务

65+阅读 · 2024年1月25日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

25+阅读 · 2024年1月2日

用魔法打败魔法，最新NDSS论文实现全自动化攻陷各大厂商大模型聊天机器人

用魔法打败魔法，最新NDSS论文实现全自动化攻陷各大厂商大模型聊天机器人

专知会员服务

43+阅读 · 2023年10月27日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

AINLP

10+阅读 · 2020年4月16日

基于金融-司法领域(兼有闲聊性质)的聊天机器人

基于金融-司法领域(兼有闲聊性质)的聊天机器人

专知

10+阅读 · 2019年7月8日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

人工智能学家

15+阅读 · 2018年8月4日

CCCF动态：徐文渊 | 海豚音攻击的幕后故事

CCCF动态：徐文渊 | 海豚音攻击的幕后故事

中国计算机学会

12+阅读 · 2018年7月17日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

赛尔原创 | 教聊天机器人进行多轮对话

赛尔原创 | 教聊天机器人进行多轮对话

哈工大SCIR

18+阅读 · 2017年9月18日

无线多跳网络物理层安全理论与关键技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Pattern Enhanced Multi-Turn Jailbreaking: Exploiting Structural Vulnerabilities in Large Language Models

Arxiv

0+阅读 · 2月5日

Proactive defense against LLM Jailbreak

Arxiv

0+阅读 · 2月2日

Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment

Arxiv

0+阅读 · 2月2日

LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs

Arxiv

0+阅读 · 1月28日

Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models

Arxiv

0+阅读 · 1月12日

Jailbreaking Large Language Models through Iterative Tool-Disguised Attacks via Reinforcement Learning

Arxiv

0+阅读 · 1月9日

Knowledge-Driven Multi-Turn Jailbreaking on Large Language Models

Arxiv

0+阅读 · 1月9日

Multi-turn Jailbreaking Attack in Multi-Modal Large Language Models

Arxiv

0+阅读 · 1月8日

Emoji-Based Jailbreaking of Large Language Models

Arxiv

0+阅读 · 1月2日

Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

echo回声（移动应用）

最新内容

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

0+阅读 · 15分钟前

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

0+阅读 · 17分钟前

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

0+阅读 · 25分钟前

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

0+阅读 · 28分钟前

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

10+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

10+阅读 · 4月25日

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

9+阅读 · 4月25日

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

19+阅读 · 4月25日

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

8+阅读 · 4月25日

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

12+阅读 · 4月25日

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

9+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

13+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

9+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

7+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

8+阅读 · 4月24日

相关VIP内容

大语言模型越狱攻击：模型、根因及其攻防演化

大语言模型越狱攻击：模型、根因及其攻防演化

专知会员服务

22+阅读 · 2025年4月28日

大语言模型越狱攻击: 模型、根因及其攻防演化

大语言模型越狱攻击: 模型、根因及其攻防演化

专知会员服务

24+阅读 · 2025年2月16日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

专知会员服务

45+阅读 · 2024年3月12日

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

专知会员服务

65+阅读 · 2024年1月25日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

25+阅读 · 2024年1月2日

用魔法打败魔法，最新NDSS论文实现全自动化攻陷各大厂商大模型聊天机器人

用魔法打败魔法，最新NDSS论文实现全自动化攻陷各大厂商大模型聊天机器人

专知会员服务

43+阅读 · 2023年10月27日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

以色列运用人工智能优化空袭警报系统

《将形式化方法工具应用于电子战代码库（经验报告）》

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

以色列在多条战线部署AI智能体

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

AINLP

10+阅读 · 2020年4月16日

基于金融-司法领域(兼有闲聊性质)的聊天机器人

基于金融-司法领域(兼有闲聊性质)的聊天机器人

专知

10+阅读 · 2019年7月8日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

人工智能学家

15+阅读 · 2018年8月4日

CCCF动态：徐文渊 | 海豚音攻击的幕后故事

CCCF动态：徐文渊 | 海豚音攻击的幕后故事

中国计算机学会

12+阅读 · 2018年7月17日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

赛尔原创 | 教聊天机器人进行多轮对话

赛尔原创 | 教聊天机器人进行多轮对话

哈工大SCIR

18+阅读 · 2017年9月18日

相关论文

Pattern Enhanced Multi-Turn Jailbreaking: Exploiting Structural Vulnerabilities in Large Language Models

Arxiv

0+阅读 · 2月5日

Proactive defense against LLM Jailbreak

Arxiv

0+阅读 · 2月2日

Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment

Arxiv

0+阅读 · 2月2日

LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs

Arxiv

0+阅读 · 1月28日

Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models

Arxiv

0+阅读 · 1月12日

Jailbreaking Large Language Models through Iterative Tool-Disguised Attacks via Reinforcement Learning

Arxiv

0+阅读 · 1月9日

Knowledge-Driven Multi-Turn Jailbreaking on Large Language Models

Arxiv

0+阅读 · 1月9日

Multi-turn Jailbreaking Attack in Multi-Modal Large Language Models

Arxiv

0+阅读 · 1月8日

Emoji-Based Jailbreaking of Large Language Models

Arxiv

0+阅读 · 1月2日

Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?

Arxiv

0+阅读 · 2025年12月30日

相关基金

无线多跳网络物理层安全理论与关键技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员