Large Reasoning Models (LRMs) improve performance, reliability, and interpretability by generating explicit chain-of-thought (CoT) reasoning, but this transparency introduces a serious privacy risk: intermediate reasoning often leaks personally identifiable information (PII) even when final answers are sanitized. We study how to induce privacy-first reasoning, where models reason without exposing sensitive information, using deployable interventions rather than post-hoc redaction. We introduce PII-CoT-Bench, a supervised dataset with privacy-aware CoT annotations, and a category-balanced evaluation benchmark covering realistic and adversarial leakage scenarios. Our results reveal a capability-dependent trend: state-of-the-art models benefit most from prompt-based controls, whereas weaker models require fine-tuning to achieve meaningful leakage reduction. Across models and categories, both approaches substantially reduce PII exposure with minimal degradation in utility, demonstrating that private reasoning can be achieved without sacrificing performance. Overall, we show that private CoT reasoning can be achieved with minimal utility loss, providing practical guidance for building privacy-preserving reasoning systems.


翻译:大规模推理模型通过生成显式的思维链推理来提高性能、可靠性和可解释性,但这种透明性带来了严重的隐私风险:即使最终答案经过脱敏处理,中间推理过程仍常常泄露个人身份信息。我们研究如何通过可部署的干预措施(而非事后编辑)来引导模型进行隐私优先的推理,使其在不暴露敏感信息的前提下完成推理。我们提出了PII-CoT-Bench——一个包含隐私感知思维链标注的监督数据集,以及一个涵盖现实场景和对抗性泄露场景的类别平衡评估基准。我们的研究结果揭示了一种能力依赖趋势:最先进的模型通过基于提示的控制获益最大,而较弱模型则需要通过微调才能实现有意义的泄露减少。在所有模型和类别中,这两种方法都能在效用损失最小的情况下显著降低PII暴露风险,证明私有推理可以在不牺牲性能的前提下实现。总体而言,我们的研究表明,私有思维链推理能够以极小的效用损失实现,为构建隐私保护推理系统提供了实用指导。

0
下载
关闭预览

相关内容

超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
多模态思维链推理:全面综述
专知会员服务
60+阅读 · 2025年3月23日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
区块链隐私保护研究综述——祝烈煌详解
计算机研究与发展
23+阅读 · 2018年11月28日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月3日
VIP会员
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员