思维净化链：在大规模推理模型的思维链中防范个人身份信息泄露 (Chain-of-Sanitized-Thoughts: Plugging PII Leakage in CoT of Large Reasoning Models) - 专知论文

会员服务 ·

0

思维链 · 推理模型 · 信息泄露 · 类别 · 效用 ·

Chain-of-Sanitized-Thoughts: Plugging PII Leakage in CoT of Large Reasoning Models

翻译：思维净化链：在大规模推理模型的思维链中防范个人身份信息泄露

Arghyadeep Das,Sai Sreenivas Chintha,Rishiraj Girmal,Kinjal Pandey,Sharvi Endait

from arxiv, 12 pages, 6 figures, 1 table

Large Reasoning Models (LRMs) improve performance, reliability, and interpretability by generating explicit chain-of-thought (CoT) reasoning, but this transparency introduces a serious privacy risk: intermediate reasoning often leaks personally identifiable information (PII) even when final answers are sanitized. We study how to induce privacy-first reasoning, where models reason without exposing sensitive information, using deployable interventions rather than post-hoc redaction. We introduce PII-CoT-Bench, a supervised dataset with privacy-aware CoT annotations, and a category-balanced evaluation benchmark covering realistic and adversarial leakage scenarios. Our results reveal a capability-dependent trend: state-of-the-art models benefit most from prompt-based controls, whereas weaker models require fine-tuning to achieve meaningful leakage reduction. Across models and categories, both approaches substantially reduce PII exposure with minimal degradation in utility, demonstrating that private reasoning can be achieved without sacrificing performance. Overall, we show that private CoT reasoning can be achieved with minimal utility loss, providing practical guidance for building privacy-preserving reasoning systems.

翻译：大规模推理模型通过生成显式的思维链推理来提高性能、可靠性和可解释性，但这种透明性带来了严重的隐私风险：即使最终答案经过脱敏处理，中间推理过程仍常常泄露个人身份信息。我们研究如何通过可部署的干预措施（而非事后编辑）来引导模型进行隐私优先的推理，使其在不暴露敏感信息的前提下完成推理。我们提出了PII-CoT-Bench——一个包含隐私感知思维链标注的监督数据集，以及一个涵盖现实场景和对抗性泄露场景的类别平衡评估基准。我们的研究结果揭示了一种能力依赖趋势：最先进的模型通过基于提示的控制获益最大，而较弱模型则需要通过微调才能实现有意义的泄露减少。在所有模型和类别中，这两种方法都能在效用损失最小的情况下显著降低PII暴露风险，证明私有推理可以在不牺牲性能的前提下实现。总体而言，我们的研究表明，私有思维链推理能够以极小的效用损失实现，为构建隐私保护推理系统提供了实用指导。

0

相关内容

思维链

超越语言的推理：潜在思维链推理的综合综述

超越语言的推理：潜在思维链推理的综合综述

专知会员服务

22+阅读 · 2025年5月23日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

大规模推理模型的高效推理：综述

大规模推理模型的高效推理：综述

专知会员服务

21+阅读 · 2025年4月3日

多模态思维链推理：全面综述

多模态思维链推理：全面综述

专知会员服务

60+阅读 · 2025年3月23日

AI进入推理模型时代，一文带你读懂思维链

AI进入推理模型时代，一文带你读懂思维链

专知会员服务

39+阅读 · 2025年3月17日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

专知会员服务

87+阅读 · 2023年9月30日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

专知

41+阅读 · 2019年1月22日

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

机器之心

34+阅读 · 2019年1月4日

区块链隐私保护研究综述——祝烈煌详解

区块链隐私保护研究综述——祝烈煌详解

计算机研究与发展

23+阅读 · 2018年11月28日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

15+阅读 · 2018年3月12日

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于大数据分析的犯罪模式挖掘与犯罪预测研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Arxiv

0+阅读 · 2月4日

Chain-of-Thought Hijacking

Arxiv

0+阅读 · 2月3日

ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

Arxiv

0+阅读 · 1月30日

THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

Arxiv

0+阅读 · 1月30日

SemCoT: Accelerating Chain-of-Thought Reasoning through Semantically-Aligned Implicit Tokens

Arxiv

0+阅读 · 1月27日

Thought-Transfer: Indirect Targeted Poisoning Attacks on Chain-of-Thought Reasoning Models

Arxiv

0+阅读 · 1月27日

SafeRBench: Dissecting the Reasoning Safety of Large Language Models

Arxiv

0+阅读 · 1月26日

Reinforcement Learning for Chain of Thought Compression with One-Domain-to-All Generalization

Arxiv

0+阅读 · 1月21日

Neural Chain-of-Thought Search: Searching the Optimal Reasoning Path to Enhance Large Language Models

Arxiv

0+阅读 · 1月16日

Investigating CoT Monitorability in Large Reasoning Models

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

相关VIP内容

超越语言的推理：潜在思维链推理的综合综述

超越语言的推理：潜在思维链推理的综合综述

专知会员服务

22+阅读 · 2025年5月23日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

大规模推理模型的高效推理：综述

大规模推理模型的高效推理：综述

专知会员服务

21+阅读 · 2025年4月3日

多模态思维链推理：全面综述

多模态思维链推理：全面综述

专知会员服务

60+阅读 · 2025年3月23日

AI进入推理模型时代，一文带你读懂思维链

AI进入推理模型时代，一文带你读懂思维链

专知会员服务

39+阅读 · 2025年3月17日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

专知会员服务

87+阅读 · 2023年9月30日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

专知

41+阅读 · 2019年1月22日

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

机器之心

34+阅读 · 2019年1月4日

区块链隐私保护研究综述——祝烈煌详解

区块链隐私保护研究综述——祝烈煌详解

计算机研究与发展

23+阅读 · 2018年11月28日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

15+阅读 · 2018年3月12日

相关论文

Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Arxiv

0+阅读 · 2月4日

Chain-of-Thought Hijacking

Arxiv

0+阅读 · 2月3日

ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

Arxiv

0+阅读 · 1月30日

THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

Arxiv

0+阅读 · 1月30日

SemCoT: Accelerating Chain-of-Thought Reasoning through Semantically-Aligned Implicit Tokens

Arxiv

0+阅读 · 1月27日

Thought-Transfer: Indirect Targeted Poisoning Attacks on Chain-of-Thought Reasoning Models

Arxiv

0+阅读 · 1月27日

SafeRBench: Dissecting the Reasoning Safety of Large Language Models

Arxiv

0+阅读 · 1月26日

Reinforcement Learning for Chain of Thought Compression with One-Domain-to-All Generalization

Arxiv

0+阅读 · 1月21日

Neural Chain-of-Thought Search: Searching the Optimal Reasoning Path to Enhance Large Language Models

Arxiv

0+阅读 · 1月16日

Investigating CoT Monitorability in Large Reasoning Models

Arxiv

0+阅读 · 1月7日

相关基金

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于大数据分析的犯罪模式挖掘与犯罪预测研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员