An Empirical Study of Privacy Leakage Chains via Prompt Injection in Black-Box Chatbot Environments - 专知论文

会员服务 ·

0

攻击 · Chatbot · 提示注入 · 黑盒 · 机器人 ·

An Empirical Study of Privacy Leakage Chains via Prompt Injection in Black-Box Chatbot Environments

翻译：黑盒聊天机器人环境中基于提示注入的隐私泄露链实证研究

Hongjang Yang,Hyunsik Na,Daeseon Choi

from arxiv, 9 pages, 2 figures

LLM-based chatbot agents increasingly process user requests by combining natural-language reasoning with external tools such as web browsing. These capabilities improve usability, but they also create attack surfaces when untrusted external content is processed as part of a user' s task. This paper studies a privacy-leakage attack chain based on indirect prompt injection in black-box chatbot environments, where the attacker has no access to model weights, system prompts, or agent implementation details including how a trajectory is actually managed during its processing for a query. We first analyze how an attacker can hijack an agent' s intended task by crafting external content that appears benign to the victim while inducing the agent to execute an attacker-defined objective. We then evaluate a new prompt-injection technique, called exemplification, which uses a bridge in the external content to reframe the user prompt and the benign beginning of the retrieved page as few-shot examples before appending the attacker' s objective. We compare its attack success rate with a prior fake-completion technique. Finally, we demonstrate a proof-of-concept data-exfiltration chain using fictitious personal information in a controlled setting. Our results suggest that prompt injection, jailbreak-style instruction steering, and web-tool invocation can be combined into a feasible privacy-leakage path in deployed chatbot agents.

翻译：基于大语言模型的聊天机器人代理通过将自然语言推理与网络浏览等外部工具相结合来处理用户请求，这提升了可用性，但当不可信的外部内容作为用户任务的一部分被处理时，也引入了攻击面。本文研究黑盒聊天机器人环境中基于间接提示注入的隐私泄露攻击链，在此场景下攻击者无法获取模型权重、系统提示或代理实现细节（包括查询处理过程中轨迹的实际管理方式）。我们首先分析攻击者如何通过构造对受害者看似无害的外部内容劫持代理的预期任务，诱导其执行攻击者定义的目标。随后评估一种名为“示例化”的新型提示注入技术——该技术利用外部内容中的桥接机制将用户提示与检索页面的良性开篇重构为少样本示例，再附加攻击者目标。我们将其攻击成功率与此前的伪补全技术进行对比。最后，在可控环境中利用虚构个人信息展示了概念验证级的数据泄露链。研究结果表明，提示注入、越狱式指令引导与网络工具调用可组合成部署型聊天机器人代理中可行的隐私泄露路径。

0

相关内容

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

检索式聊天机器人技术综述

检索式聊天机器人技术综述

专知会员服务

53+阅读 · 2021年11月28日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

24+阅读 · 2021年8月22日

UCL最新「机器学习隐私」综述论文，概述隐私挑战

UCL最新「机器学习隐私」综述论文，概述隐私挑战

专知会员服务

37+阅读 · 2021年7月11日

深度学习赋能的恶意代码攻防研究进展

深度学习赋能的恶意代码攻防研究进展

专知会员服务

31+阅读 · 2021年4月11日

机器学习的安全问题及隐私保护

专知会员服务

41+阅读 · 2020年12月20日

机器学习模型安全与隐私研究综述

机器学习模型安全与隐私研究综述

专知会员服务

116+阅读 · 2020年11月12日

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

专知会员服务

81+阅读 · 2020年5月20日

【中国人民大学】机器学习的隐私保护研究综述

【中国人民大学】机器学习的隐私保护研究综述

专知会员服务

135+阅读 · 2020年3月25日

第二代聊天机器人，加拿大滑铁卢大学李明教授，CCKS-2019：知识智能

第二代聊天机器人，加拿大滑铁卢大学李明教授，CCKS-2019：知识智能

专知会员服务

16+阅读 · 2019年10月25日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

基于金融-司法领域(兼有闲聊性质)的聊天机器人

基于金融-司法领域(兼有闲聊性质)的聊天机器人

专知

10+阅读 · 2019年7月8日

可解释机器学习：打开黑盒之谜（238页书籍下载）

可解释机器学习：打开黑盒之谜（238页书籍下载）

专知

29+阅读 · 2019年1月15日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

专知

25+阅读 · 2018年11月25日

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

专知

12+阅读 · 2018年3月15日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

内容中心移动社交网络高效安全匿名通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

DoubtProbe: Black-Box Jailbreak Defense via Structural Verification and Semantic Auditing

Arxiv

0+阅读 · 6月15日

Semantic-Preserving Prompt Hijacking: A Black-Box Adversarial Attack on Auto-Prompt Optimization

Arxiv

0+阅读 · 6月12日

The Invisible Ink of the Android Malware World: A Longitudinal Study on the Usage of Covert Communication Channels

Arxiv

0+阅读 · 6月11日

PI-Hunter: Automated Red-Teaming for Exposing and Localizing Prompt Injections

Arxiv

0+阅读 · 6月10日

Assessing Automated Prompt Injection Attacks in Agentic Environments

Arxiv

0+阅读 · 6月9日

DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation

Arxiv

0+阅读 · 6月3日

Investigating Detection and Obfuscation of Prompt Injection Attacks Against Software Reverse Engineering AI Agents

Arxiv

0+阅读 · 5月29日

Putting Privacy to the Test: Introducing Red Teaming for Research Data Anonymization

Arxiv

0+阅读 · 5月22日

ChatbotManip: A Dataset to Facilitate Evaluation and Oversight of Manipulative Chatbot Behaviour

Arxiv

0+阅读 · 5月11日

Searching for Privacy Risks in LLM Agents via Simulation

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

8+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

3+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

7+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

9+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

4+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

8+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

6+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

6+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

6+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

4+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

12+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

9+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

10+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

6+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

9+阅读 · 7月31日

相关VIP内容

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

检索式聊天机器人技术综述

检索式聊天机器人技术综述

专知会员服务

53+阅读 · 2021年11月28日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

24+阅读 · 2021年8月22日

UCL最新「机器学习隐私」综述论文，概述隐私挑战

UCL最新「机器学习隐私」综述论文，概述隐私挑战

专知会员服务

37+阅读 · 2021年7月11日

深度学习赋能的恶意代码攻防研究进展

深度学习赋能的恶意代码攻防研究进展

专知会员服务

31+阅读 · 2021年4月11日

机器学习的安全问题及隐私保护

专知会员服务

41+阅读 · 2020年12月20日

机器学习模型安全与隐私研究综述

机器学习模型安全与隐私研究综述

专知会员服务

116+阅读 · 2020年11月12日

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

专知会员服务

81+阅读 · 2020年5月20日

【中国人民大学】机器学习的隐私保护研究综述

【中国人民大学】机器学习的隐私保护研究综述

专知会员服务

135+阅读 · 2020年3月25日

第二代聊天机器人，加拿大滑铁卢大学李明教授，CCKS-2019：知识智能

第二代聊天机器人，加拿大滑铁卢大学李明教授，CCKS-2019：知识智能

专知会员服务

16+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

基于金融-司法领域(兼有闲聊性质)的聊天机器人

基于金融-司法领域(兼有闲聊性质)的聊天机器人

专知

10+阅读 · 2019年7月8日

可解释机器学习：打开黑盒之谜（238页书籍下载）

可解释机器学习：打开黑盒之谜（238页书籍下载）

专知

29+阅读 · 2019年1月15日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

专知

25+阅读 · 2018年11月25日

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

专知

12+阅读 · 2018年3月15日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

相关论文

DoubtProbe: Black-Box Jailbreak Defense via Structural Verification and Semantic Auditing

Arxiv

0+阅读 · 6月15日

Semantic-Preserving Prompt Hijacking: A Black-Box Adversarial Attack on Auto-Prompt Optimization

Arxiv

0+阅读 · 6月12日

The Invisible Ink of the Android Malware World: A Longitudinal Study on the Usage of Covert Communication Channels

Arxiv

0+阅读 · 6月11日

PI-Hunter: Automated Red-Teaming for Exposing and Localizing Prompt Injections

Arxiv

0+阅读 · 6月10日

Assessing Automated Prompt Injection Attacks in Agentic Environments

Arxiv

0+阅读 · 6月9日

DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation

Arxiv

0+阅读 · 6月3日

Investigating Detection and Obfuscation of Prompt Injection Attacks Against Software Reverse Engineering AI Agents

Arxiv

0+阅读 · 5月29日

Putting Privacy to the Test: Introducing Red Teaming for Research Data Anonymization

Arxiv

0+阅读 · 5月22日

ChatbotManip: A Dataset to Facilitate Evaluation and Oversight of Manipulative Chatbot Behaviour

Arxiv

0+阅读 · 5月11日

Searching for Privacy Risks in LLM Agents via Simulation

Arxiv

0+阅读 · 5月8日

相关基金

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

内容中心移动社交网络高效安全匿名通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员