AI agents powered by reasoning models require access to sensitive user data. However, their reasoning traces are difficult to control, which can result in the unintended leakage of private information to external parties. We propose training models to follow instructions not only in the final answer, but also in reasoning traces, potentially under different constraints. We hypothesize that improving their instruction following abilities in the reasoning traces can improve their privacy-preservation skills. To demonstrate this, we fine-tune models on a new instruction-following dataset with explicit restrictions on reasoning traces. We further introduce a generation strategy that decouples reasoning and answer generation using separate LoRA adapters. We evaluate our approach on six models from two model families, ranging from 1.7B to 14B parameters, across two instruction-following benchmarks and two privacy benchmarks. Our method yields substantial improvements, achieving gains of up to 20.9 points in instruction-following performance and up to 51.9 percentage points on privacy benchmarks. These improvements, however, can come at the cost of task utility, due to the trade-off between reasoning performance and instruction-following abilities. Overall, our results show that improving instruction-following behavior in reasoning models can significantly enhance privacy, suggesting a promising direction for the development of future privacy-aware agents. Our code and data are available at https://github.com/UKPLab/arxiv2026-controllable-reasoning-models


翻译:由推理模型驱动的AI智能体需要访问敏感用户数据。然而,其推理轨迹难以控制,可能导致私人信息意外泄露给外部实体。我们提出训练模型使其不仅在最终答案中遵循指令,同时在推理轨迹中也能遵循指令,且可能在不同约束条件下实现。我们假设提升模型在推理轨迹中的指令遵循能力可增强其隐私保护技能。为验证此假设,我们在一个对推理轨迹设有明确限制的新指令遵循数据集上对模型进行微调。我们进一步提出一种生成策略,通过使用独立的LoRA适配器将推理过程与答案生成解耦。我们在两个模型家族的六个模型上评估该方法,模型参数规模从17亿到140亿不等,测试涵盖两个指令遵循基准和两个隐私基准。我们的方法带来了显著改进,在指令遵循性能上最高提升20.9分,在隐私基准上最高提升51.9个百分点。然而,由于推理性能与指令遵循能力间的权衡,这些改进可能以任务效用为代价。总体而言,我们的结果表明,提升推理模型的指令遵循行为能显著增强隐私保护,这为未来隐私感知智能体的发展指明了有前景的方向。我们的代码与数据公开于https://github.com/UKPLab/arxiv2026-controllable-reasoning-models

0
下载
关闭预览

相关内容

【CMU博士论文】基于机器学习的可信科学推理
专知会员服务
16+阅读 · 2025年5月26日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
40+阅读 · 2025年5月10日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
40+阅读 · 2025年3月17日
DeepSeek R1和推理模型,我有几点看法
专知会员服务
38+阅读 · 2025年2月10日
专知会员服务
23+阅读 · 2021年8月22日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
0+阅读 · 今天14:38
Palantir AIP平台:连接智能体与决策
专知会员服务
7+阅读 · 今天1:22
《美海军软件测试战略》90页slides
专知会员服务
7+阅读 · 今天1:00
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
8+阅读 · 4月30日
相关资讯
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员