Large Reasoning Models (LRMs) have rapidly gained prominence for their strong performance in solving complex tasks. Many modern black-box LRMs expose the intermediate reasoning traces through APIs to improve transparency (e.g., Gemini-2.5 and Claude-sonnet). Despite their benefits, we find that these traces can leak membership signals, creating a new privacy threat even without access to token logits used in prior attacks. In this work, we initiate the first systematic exploration of Membership Inference Attacks (MIAs) on black-box LRMs. Our preliminary analysis shows that LRMs produce confident, recall-like reasoning traces on familiar training member samples but more hesitant, inference-like reasoning traces on non-members. The representations of these traces are continuously distributed in the semantic latent space, spanning from familiar to unfamiliar samples. Building on this observation, we propose BlackSpectrum, the first membership inference attack framework targeting the black-box LRMs. The key idea is to construct a recall-inference axis in the semantic latent space, based on representations derived from the exposed traces. By locating where a query sample falls along this axis, the attacker can obtain a membership score and predict how likely it is to be a member of the training data. Additionally, to address the limitations of outdated datasets unsuited to modern LRMs, we provide two new datasets to support future research, arXivReasoning and BookReasoning. Empirically, exposing reasoning traces significantly increases the vulnerability of LRMs to membership inference attacks, leading to large gains in attack performance. Our findings highlight the need for LRM companies to balance transparency in intermediate reasoning traces with privacy preservation.


翻译:大型推理模型(LRMs)因其在解决复杂任务方面的强大性能而迅速获得关注。许多现代黑盒LRM通过API公开中间推理轨迹以提高透明度(例如Gemini-2.5和Claude-sonnet)。尽管这些轨迹具有优势,但我们发现它们可能泄露成员身份信号,即使在没有先前攻击所使用的词元对数概率的情况下,也会造成新的隐私威胁。在本研究中,我们首次系统性地探索针对黑盒LRMs的成员推理攻击(MIAs)。初步分析表明,LRMs在面对熟悉的训练成员样本时会产生自信的、类似回忆的推理轨迹,而在面对非成员样本时则会产生更犹豫的、类似推断的推理轨迹。这些轨迹的表征在语义潜在空间中呈连续分布,涵盖从熟悉到不熟悉的样本。基于这一观察,我们提出了BlackSpectrum——首个针对黑盒LRMs的成员推理攻击框架。其核心思想是在语义潜在空间中构建一个回忆-推断轴,该轴基于从公开轨迹中提取的表征。通过定位查询样本在该轴上的位置,攻击者可以获得成员身份评分,并预测该样本属于训练数据的可能性。此外,为解决现有数据集不适用于现代LRMs的局限性,我们提供了两个新数据集arXivReasoning和BookReasoning以支持未来研究。实验表明,公开推理轨迹会显著增加LRMs遭受成员推理攻击的脆弱性,导致攻击性能大幅提升。我们的研究结果强调了LRM公司需要在中间推理轨迹的透明度与隐私保护之间取得平衡。

0
下载
关闭预览

相关内容

别想太多:高效 R1 风格大型推理模型综述
专知会员服务
23+阅读 · 2025年8月5日
大模型推理的天花板在哪里?
专知会员服务
15+阅读 · 2025年6月12日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
迈向推理时代:大型语言模型的长链推理研究综述
专知会员服务
46+阅读 · 2025年3月13日
专知会员服务
23+阅读 · 2021年8月22日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月18日
VIP会员
相关VIP内容
别想太多:高效 R1 风格大型推理模型综述
专知会员服务
23+阅读 · 2025年8月5日
大模型推理的天花板在哪里?
专知会员服务
15+阅读 · 2025年6月12日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
迈向推理时代:大型语言模型的长链推理研究综述
专知会员服务
46+阅读 · 2025年3月13日
专知会员服务
23+阅读 · 2021年8月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员