Large Language Models (LLMs) are being integrated into applications such as chatbots or email assistants. To prevent improper responses, safety mechanisms, such as Reinforcement Learning from Human Feedback (RLHF), are implemented in them. In this work, we bypass these safety measures for ChatGPT, Gemini, and Deepseek by making them impersonate complex personas with personality characteristics that are not aligned with a truthful assistant. First, we create elaborate biographies of these personas, which we then use in a new session with the same chatbots. Our conversations then follow a role-play style to elicit prohibited responses. Using personas, we show that prohibited responses are provided, making it possible to obtain unauthorized, illegal, or harmful information when querying ChatGPT, Gemini, and Deepseek. We show that these chatbots are vulnerable to this attack by getting dangerous information for 40 out of 40 illicit questions in GPT-4.1-mini, Gemini-1.5-flash, 39 out of 40 in GPT-4o-mini, 38 out of 40 in GPT-3.5-turbo, and 2 out of 2 cases in Gemini-2.5-flash and DeepSeek V3. The attack can be carried out manually or automatically using a support LLM, and has proven effective against models deployed between 2023 and 2025.


翻译:大型语言模型(LLM)正被集成到聊天机器人或邮件助手等应用中。为防止不当回应,这些模型采用了如基于人类反馈的强化学习(RLHF)等安全机制。本研究中,我们通过让ChatGPT、Gemini和Deepseek模拟具有与真实助手不符人格特征的复杂角色,绕过了这些安全措施。首先,我们为这些角色精心编写了详尽的背景设定,并在新会话中将其应用于同一聊天机器人。随后,我们的对话采用角色扮演方式,诱导模型输出被禁止的回应。通过角色设定,我们证明了这些模型会提供被禁止的回应,从而可能从ChatGPT、Gemini和Deepseek处获取未经授权、非法或有害的信息。实验表明,这些聊天机器人易受此类攻击:在40个非法问题中,GPT-4.1-mini和Gemini-1.5-flash全部给出危险信息,GPT-4o-mini在39个、GPT-3.5-turbo在38个问题中出现此类行为,而Gemini-2.5-flash与DeepSeek V3在2个测试案例中均未幸免。该攻击可手动执行或借助支持LLM自动完成,已被证实对2023至2025年间部署的模型有效。

0
下载
关闭预览

相关内容

面向医学的多模态大型语言模型:全面综述
专知会员服务
25+阅读 · 2025年5月1日
大语言模型智能体
专知会员服务
99+阅读 · 2024年12月25日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
大型语言模型对齐
专知会员服务
120+阅读 · 2023年9月27日
Nat. Med. | 医学中的大型语言模型
专知会员服务
58+阅读 · 2023年9月19日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
马赛克战:俄乌战场透析
专知会员服务
13+阅读 · 今天4:12
《利用人工智能增强军事决策》
专知会员服务
4+阅读 · 今天4:09
《自动机器学习在军事数据耕耘法中的应用》
专知会员服务
6+阅读 · 今天4:02
为何指挥所生存能力要求范式转变
专知会员服务
4+阅读 · 今天3:54
打造“新蛛网”模式与高科技动员
专知会员服务
3+阅读 · 今天3:33
“蛛网”行动一周年:远程无人机战争
专知会员服务
3+阅读 · 今天3:23
【剑桥博士论文】智能体-环境协同优化
专知会员服务
7+阅读 · 6月9日
为初级军官战术训练设计生成式人工智能平台
专知会员服务
9+阅读 · 6月9日
《美军条令:作战伤员后送保障》
专知会员服务
7+阅读 · 6月9日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员