Zero2Text: Zero-Training Cross-Domain Inversion Attacks on Textual Embeddings - 专知论文

会员服务 ·

0

嵌入 · 攻击 · 对齐 · 文本嵌入 · 数据集 ·

Zero2Text: Zero-Training Cross-Domain Inversion Attacks on Textual Embeddings

翻译：Zero2Text：面向文本嵌入的零训练跨域反演攻击

Doohyun Kim,Donghwa Kang,Kyungjae Lee,Hyeongboo Baek,Brent Byunghoon Kang

from arxiv, 10 pages

The proliferation of retrieval-augmented generation (RAG) has established vector databases as critical infrastructure, yet they introduce severe privacy risks via embedding inversion attacks. Existing paradigms face a fundamental trade-off: optimization-based methods require computationally prohibitive queries, while alignment-based approaches hinge on the unrealistic assumption of accessible in-domain training data. These constraints render them ineffective in strict black-box and cross-domain settings. To dismantle these barriers, we introduce Zero2Text, a novel training-free framework based on recursive online alignment. Unlike methods relying on static datasets, Zero2Text synergizes LLM priors with a dynamic ridge regression mechanism to iteratively align generation to the target embedding on-the-fly. We further demonstrate that standard defenses, such as differential privacy, fail to effectively mitigate this adaptive threat. Extensive experiments across diverse benchmarks validate Zero2Text; notably, on MS MARCO against the OpenAI victim model, it achieves 1.8x higher ROUGE-L and 6.4x higher BLEU-2 scores compared to baselines, recovering sentences from unknown domains without a single leaked data pair.

翻译：检索增强生成（RAG）的广泛应用已使向量数据库成为关键基础设施，但它们也通过嵌入反演攻击引入了严重的隐私风险。现有方法面临一个根本性的权衡：基于优化的方法需要计算成本极高的查询，而基于对齐的方法则依赖于可获取域内训练数据这一不切实际的假设。这些限制使得它们在严格的黑盒和跨域场景中效果有限。为突破这些障碍，我们提出了Zero2Text——一种基于递归在线对齐的新型免训练框架。与依赖静态数据集的方法不同，Zero2Text将大语言模型先验知识与动态岭回归机制相结合，在生成过程中迭代地对齐目标嵌入。我们进一步证明，差分隐私等标准防御措施无法有效缓解这种自适应威胁。跨多个基准的广泛实验验证了Zero2Text的有效性；特别是在针对OpenAI受害模型的MS MARCO数据集上，其ROUGE-L分数较基线方法提升1.8倍，BLEU-2分数提升6.4倍，在未使用任何泄露数据对的情况下成功恢复了未知领域的句子。

0

相关内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

深度学习模型反演攻击与防御：全面综述

深度学习模型反演攻击与防御：全面综述

专知会员服务

26+阅读 · 2025年2月3日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

《大型语言模型中基于检索的文本生成》综述

《大型语言模型中基于检索的文本生成》综述

专知会员服务

60+阅读 · 2024年4月18日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

28+阅读 · 2023年10月3日

【CVPR2023】基于强化学习的黑盒模型反演攻击

【CVPR2023】基于强化学习的黑盒模型反演攻击

专知会员服务

24+阅读 · 2023年4月12日

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

专知会员服务

52+阅读 · 2023年3月16日

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

专知会员服务

22+阅读 · 2021年12月3日

【KDD2021】基于深度序列嵌入的分类模型的个性化文本生成攻击

专知会员服务

19+阅读 · 2021年7月11日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

197+阅读 · 2020年5月14日

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

12+阅读 · 2022年10月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知

26+阅读 · 2019年12月25日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

专知

21+阅读 · 2019年7月11日

【GAN新书】《GAN实战：生成对抗网络深度学习》牛津大学Jakub著作(附下载)

【GAN新书】《GAN实战：生成对抗网络深度学习》牛津大学Jakub著作(附下载)

专知

55+阅读 · 2019年4月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval

Arxiv

0+阅读 · 2月26日

ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

Arxiv

0+阅读 · 2月15日

DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search

Arxiv

0+阅读 · 2月12日

Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月10日

Subgraph Reconstruction Attacks on Graph RAG Deployments with Practical Defenses

Arxiv

0+阅读 · 2月6日

DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search

Arxiv

0+阅读 · 2月6日

Connect the Dots: Knowledge Graph-Guided Crawler Attack on Retrieval-Augmented Generation Systems

Connect the Dots: Knowledge Graph-Guided Crawler Attack on Retrieval-Augmented Generation Systems

Arxiv

0+阅读 · 2月5日

Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention

Arxiv

0+阅读 · 2月4日

Nemotron ColEmbed V2: Top-Performing Late Interaction embedding models for Visual Document Retrieval

Arxiv

0+阅读 · 2月3日

Zero2Text: Zero-Training Cross-Domain Inversion Attacks on Textual Embeddings

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

0+阅读 · 今天15:55

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

0+阅读 · 今天15:53

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

11+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

相关VIP内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

深度学习模型反演攻击与防御：全面综述

深度学习模型反演攻击与防御：全面综述

专知会员服务

26+阅读 · 2025年2月3日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

《大型语言模型中基于检索的文本生成》综述

《大型语言模型中基于检索的文本生成》综述

专知会员服务

60+阅读 · 2024年4月18日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

28+阅读 · 2023年10月3日

【CVPR2023】基于强化学习的黑盒模型反演攻击

【CVPR2023】基于强化学习的黑盒模型反演攻击

专知会员服务

24+阅读 · 2023年4月12日

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

专知会员服务

52+阅读 · 2023年3月16日

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

专知会员服务

22+阅读 · 2021年12月3日

【KDD2021】基于深度序列嵌入的分类模型的个性化文本生成攻击

专知会员服务

19+阅读 · 2021年7月11日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

197+阅读 · 2020年5月14日

热门VIP内容

开通专知VIP会员享更多权益服务

GNN跨域综述：从消息传递到图基础模型

巡飞弹与反无人机系统——现代战场的两大支柱

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

无人机自主控制与人工智能：系统性综述

相关资讯

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

12+阅读 · 2022年10月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知

26+阅读 · 2019年12月25日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

专知

21+阅读 · 2019年7月11日

【GAN新书】《GAN实战：生成对抗网络深度学习》牛津大学Jakub著作(附下载)

【GAN新书】《GAN实战：生成对抗网络深度学习》牛津大学Jakub著作(附下载)

专知

55+阅读 · 2019年4月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

相关论文

Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval

Arxiv

0+阅读 · 2月26日

ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

Arxiv

0+阅读 · 2月15日

DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search

Arxiv

0+阅读 · 2月12日

Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月10日

Subgraph Reconstruction Attacks on Graph RAG Deployments with Practical Defenses

Arxiv

0+阅读 · 2月6日

DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search

Arxiv

0+阅读 · 2月6日

Connect the Dots: Knowledge Graph-Guided Crawler Attack on Retrieval-Augmented Generation Systems

Connect the Dots: Knowledge Graph-Guided Crawler Attack on Retrieval-Augmented Generation Systems

Arxiv

0+阅读 · 2月5日

Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention

Arxiv

0+阅读 · 2月4日

Nemotron ColEmbed V2: Top-Performing Late Interaction embedding models for Visual Document Retrieval

Arxiv

0+阅读 · 2月3日

Zero2Text: Zero-Training Cross-Domain Inversion Attacks on Textual Embeddings

Arxiv

0+阅读 · 2月2日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员