CLIOPATRA: Extracting Private Information from LLM Insights - 专知论文

会员服务 ·

0

语言模型 · 提取 · 系统 · 启发式 · 分层 ·

CLIOPATRA: Extracting Private Information from LLM Insights

翻译：CLIOPATRA：从大语言模型洞察中提取隐私信息

Meenatchi Sundaram Muthu Selva Annamalai,Emiliano De Cristofaro,Peter Kairouz

As AI assistants become widely used, privacy-aware platforms like Anthropic's Clio have been introduced to generate insights from real-world AI use. Clio's privacy protections rely on layering multiple heuristic techniques together, including PII redaction, clustering, filtering, and LLM-based privacy auditing. In this paper, we put these claims to the test by presenting CLIOPATRA, the first privacy attack against "privacy-preserving" LLM insight systems. The attack involves a realistic adversary that carefully designs and inserts malicious chats into the system to break multiple layers of privacy protections and induce the leakage of sensitive information from a target user's chat. We evaluated CLIOPATRA on synthetically generated medical target chats, demonstrating that an adversary who knows only the basic demographics of a target user and a single symptom can successfully extract the user's medical history in 39% of cases by just inspecting Clio's output. Furthermore, CLIOPATRA can reach close to 100% when Clio is configured with other state-of-the-art models and the adversary's knowledge of the target user is increased. We also show that existing ad hoc mitigations, such as LLM-based privacy auditing, are unreliable and fail to detect major leaks. Our findings indicate that even when layered, current heuristic protections are insufficient to adequately protect user data in LLM-based analysis systems.

翻译：随着人工智能助手被广泛使用，诸如Anthropic的Clio等具备隐私意识的平台已被引入，旨在从真实世界的人工智能使用中生成洞察。Clio的隐私保护依赖于将多种启发式技术分层结合，包括个人身份信息脱敏、聚类、过滤以及基于大语言模型的隐私审计。本文通过提出CLIOPATRA——首个针对“隐私保护”大语言模型洞察系统的隐私攻击——来检验这些声明的有效性。该攻击涉及一个现实的对手，其精心设计并将恶意聊天内容插入系统，以突破多层隐私保护机制，并诱导目标用户聊天记录中的敏感信息泄露。我们在合成生成的医疗目标聊天记录上评估了CLIOPATRA，结果表明，仅知晓目标用户基本人口统计信息和单一症状的对手，仅通过检查Clio的输出，就能在39%的情况下成功提取用户的医疗史。此外，当Clio配置了其他先进模型且对手对目标用户的了解增加时，CLIOPATRA的成功率可接近100%。我们还表明，现有的临时缓解措施（例如基于大语言模型的隐私审计）并不可靠，无法检测到重大泄露。我们的研究结果表明，即使采用分层设计，当前基于启发式的保护措施仍不足以在基于大语言模型的分析系统中充分保护用户数据。

0

相关内容

语言模型

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

大模型如何处理隐私？哈佛最新《大型语言模型中的隐私问题》综述

大模型如何处理隐私？哈佛最新《大型语言模型中的隐私问题》综述

专知会员服务

44+阅读 · 2023年12月15日

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

专知会员服务

47+阅读 · 2023年3月20日

AI时代生物隐私如何保护？马德里自治大学最新《生物特征识别中的隐私增强技术》综述，全面详述生物隐私增强技术

AI时代生物隐私如何保护？马德里自治大学最新《生物特征识别中的隐私增强技术》综述，全面详述生物隐私增强技术

专知会员服务

21+阅读 · 2022年6月24日

《隐私计算白皮书（2021年）》正式发布（附下载链接）

《隐私计算白皮书（2021年）》正式发布（附下载链接）

专知会员服务

96+阅读 · 2021年7月22日

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

专知会员服务

81+阅读 · 2020年5月20日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

专知会员服务

36+阅读 · 2020年3月19日

【O'Reilly AI Conference 2019】高管简报：机器学习系统隐私的进步（Executive Briefing: Advances in privacy for machine learning systems），Katharine Jarmul

【O'Reilly AI Conference 2019】高管简报：机器学习系统隐私的进步（Executive Briefing: Advances in privacy for machine learning systems），Katharine Jarmul

专知会员服务

16+阅读 · 2019年11月5日

用户隐私，数据孤岛和联邦学习，香港科技大学杨强教授，第八届全国社会媒体处理大会SMP2019

用户隐私，数据孤岛和联邦学习，香港科技大学杨强教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

56+阅读 · 2019年10月24日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

【专知-Java Deeplearning4j深度学习教程05】无监督特征提取神器—AutoEncoder:图文+代码

【专知-Java Deeplearning4j深度学习教程05】无监督特征提取神器—AutoEncoder:图文+代码

专知

13+阅读 · 2017年10月16日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向隐私保护的云数据访问模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

Arxiv

0+阅读 · 3月5日

Towards Privacy-Preserving LLM Inference via Collaborative Obfuscation (Technical Report)

Arxiv

0+阅读 · 3月2日

RobPI: Robust Private Inference against Malicious Client

Arxiv

0+阅读 · 2月23日

Large-scale online deanonymization with LLMs

Arxiv

0+阅读 · 2月18日

COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Arxiv

0+阅读 · 2月17日

DiSCoKit: An Open-Source Toolkit for Deploying Live LLM Experiences in Survey Research

Arxiv

0+阅读 · 2月11日

Privacy Control in Conversational LLM Platforms: A Walkthrough Study

Arxiv

0+阅读 · 2月11日

Co-RedTeam: Orchestrated Security Discovery and Exploitation with LLM Agents

Arxiv

0+阅读 · 2月3日

Co-RedTeam: Orchestrated Security Discovery and Exploitation with LLM Agents

Arxiv

0+阅读 · 2月2日

AlienLM: Alienization of Language for API-Boundary Privacy in Black-Box LLMs

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

Palantir AIP平台：连接智能体与决策

Palantir AIP平台：连接智能体与决策

专知会员服务

7+阅读 · 今天1:22

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

专知会员服务

3+阅读 · 今天1:17

《通用基于模型的系统工程交会与接近操作任务规划器》130页

《通用基于模型的系统工程交会与接近操作任务规划器》130页

专知会员服务

4+阅读 · 今天1:12

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

3+阅读 · 今天1:11

《美海军软件测试战略》90页slides

《美海军软件测试战略》90页slides

专知会员服务

7+阅读 · 今天1:00

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

6+阅读 · 4月30日

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

6+阅读 · 4月30日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

8+阅读 · 4月30日

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

15+阅读 · 4月30日

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

7+阅读 · 4月30日

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

12+阅读 · 4月30日

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

7+阅读 · 4月30日

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

9+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

相关VIP内容

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

大模型如何处理隐私？哈佛最新《大型语言模型中的隐私问题》综述

大模型如何处理隐私？哈佛最新《大型语言模型中的隐私问题》综述

专知会员服务

44+阅读 · 2023年12月15日

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

专知会员服务

47+阅读 · 2023年3月20日

AI时代生物隐私如何保护？马德里自治大学最新《生物特征识别中的隐私增强技术》综述，全面详述生物隐私增强技术

AI时代生物隐私如何保护？马德里自治大学最新《生物特征识别中的隐私增强技术》综述，全面详述生物隐私增强技术

专知会员服务

21+阅读 · 2022年6月24日

《隐私计算白皮书（2021年）》正式发布（附下载链接）

《隐私计算白皮书（2021年）》正式发布（附下载链接）

专知会员服务

96+阅读 · 2021年7月22日

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

专知会员服务

81+阅读 · 2020年5月20日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

专知会员服务

36+阅读 · 2020年3月19日

【O'Reilly AI Conference 2019】高管简报：机器学习系统隐私的进步（Executive Briefing: Advances in privacy for machine learning systems），Katharine Jarmul

【O'Reilly AI Conference 2019】高管简报：机器学习系统隐私的进步（Executive Briefing: Advances in privacy for machine learning systems），Katharine Jarmul

专知会员服务

16+阅读 · 2019年11月5日

用户隐私，数据孤岛和联邦学习，香港科技大学杨强教授，第八届全国社会媒体处理大会SMP2019

用户隐私，数据孤岛和联邦学习，香港科技大学杨强教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

56+阅读 · 2019年10月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

Palantir AIP平台：连接智能体与决策

《通用基于模型的系统工程交会与接近操作任务规划器》130页

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

【专知-Java Deeplearning4j深度学习教程05】无监督特征提取神器—AutoEncoder:图文+代码

【专知-Java Deeplearning4j深度学习教程05】无监督特征提取神器—AutoEncoder:图文+代码

专知

13+阅读 · 2017年10月16日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

相关论文

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

Arxiv

0+阅读 · 3月5日

Towards Privacy-Preserving LLM Inference via Collaborative Obfuscation (Technical Report)

Arxiv

0+阅读 · 3月2日

RobPI: Robust Private Inference against Malicious Client

Arxiv

0+阅读 · 2月23日

Large-scale online deanonymization with LLMs

Arxiv

0+阅读 · 2月18日

COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Arxiv

0+阅读 · 2月17日

DiSCoKit: An Open-Source Toolkit for Deploying Live LLM Experiences in Survey Research

Arxiv

0+阅读 · 2月11日

Privacy Control in Conversational LLM Platforms: A Walkthrough Study

Arxiv

0+阅读 · 2月11日

Co-RedTeam: Orchestrated Security Discovery and Exploitation with LLM Agents

Arxiv

0+阅读 · 2月3日

Co-RedTeam: Orchestrated Security Discovery and Exploitation with LLM Agents

Arxiv

0+阅读 · 2月2日

AlienLM: Alienization of Language for API-Boundary Privacy in Black-Box LLMs

Arxiv

0+阅读 · 1月30日

相关基金

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向隐私保护的云数据访问模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员