EnsembleSHAP: Faithful and Certifiably Robust Attribution for Random Subspace Method - 专知论文

会员服务 ·

0

攻击 · 随机子空间 · 子空间 · 特征归因 · 鲁棒 ·

EnsembleSHAP: Faithful and Certifiably Robust Attribution for Random Subspace Method

翻译：EnsembleSHAP：面向随机子空间方法的忠实且可认证鲁棒归因

Yanting Wang,Jinyuan Jia

from arxiv, Published at ICLR 2026

Random subspace method has wide security applications such as providing certified defenses against adversarial and backdoor attacks, and building robustly aligned LLM against jailbreaking attacks. However, the explanation of random subspace method lacks sufficient exploration. Existing state-of-the-art feature attribution methods, such as Shapley value and LIME, are computationally impractical and lacks security guarantee when applied to random subspace method. In this work, we propose EnsembleSHAP, an intrinsically faithful and secure feature attribution for random subspace method that reuses its computational byproducts. Specifically, our feature attribution method is 1) computationally efficient, 2) maintains essential properties of effective feature attribution (such as local accuracy), and 3) offers guaranteed protection against privacy-preserving attacks on feature attribution methods. To the best of our knowledge, this is the first work to establish provable robustness against explanation-preserving attacks. We also perform comprehensive evaluations for our explanation's effectiveness when faced with different empirical attacks, including backdoor attacks, adversarial attacks, and jailbreak attacks. The code is at https://github.com/Wang-Yanting/EnsembleSHAP. WARNING: This document may include content that could be considered harmful.

翻译：随机子空间方法在安全领域具有广泛应用，例如提供对抗对抗攻击和后门攻击的可认证防御，以及构建针对越狱攻击的鲁棒对齐大语言模型。然而，随机子空间方法的可解释性尚未得到充分探索。现有最先进的特征归因方法（如Shapley值和LIME）在应用于随机子空间方法时存在计算不可行且缺乏安全保障的问题。本文提出EnsembleSHAP，一种面向随机子空间方法的内在忠实且安全的特征归因方法，该方法通过复用随机子空间方法的计算副产品实现。具体而言，我们的特征归因方法具有以下特性：1) 计算高效，2) 保持有效特征归因的核心属性（如局部准确性），3) 为特征归因方法提供针对隐私攻击的保障性防护。据我们所知，这是首个建立可证明鲁棒性以抵御解释保存攻击的研究工作。我们还针对方法在面对不同实证攻击（包括后门攻击、对抗攻击和越狱攻击）时的有效性进行了全面评估。代码见https://github.com/Wang-Yanting/EnsembleSHAP。警告：本文档可能包含被认为有害的内容。

0

相关内容

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

14+阅读 · 2025年10月6日

【博士论文】对抗鲁棒性深度学习算法

【博士论文】对抗鲁棒性深度学习算法

专知会员服务

16+阅读 · 2025年9月29日

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

29+阅读 · 2024年8月26日

【CVPR2024教程】推理的鲁棒性：走向可解释性、不确定性和可干预性，169页ppt

【CVPR2024教程】推理的鲁棒性：走向可解释性、不确定性和可干预性，169页ppt

专知会员服务

36+阅读 · 2024年6月20日

【阿姆斯特丹博士论文】可解释的视觉分类鲁棒性，102页pdf

【阿姆斯特丹博士论文】可解释的视觉分类鲁棒性，102页pdf

专知会员服务

42+阅读 · 2023年3月26日

【UFPE大学博士论文】基于熵损失的鲁棒深度学习

【UFPE大学博士论文】基于熵损失的鲁棒深度学习

专知会员服务

43+阅读 · 2022年11月11日

面向图像分类的对抗鲁棒性评估综述

面向图像分类的对抗鲁棒性评估综述

专知会员服务

59+阅读 · 2022年10月15日

【硬核书】机器学习对抗鲁棒性，276页pdf

【硬核书】机器学习对抗鲁棒性，276页pdf

专知会员服务

116+阅读 · 2022年9月20日

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

专知会员服务

26+阅读 · 2021年12月27日

【ICML2021】基于子空间的随机几何图并集的谱方法理论

专知会员服务

15+阅读 · 2021年8月29日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知

31+阅读 · 2020年8月27日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

《应用随机微分方程》，324页pdf新书免费分享

《应用随机微分方程》，324页pdf新书免费分享

专知

20+阅读 · 2019年5月6日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

基于超连续谱随机起伏并行产生高速、实时物理随机数研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

随机接入中的分布式功率控制和数据包编码传输

国家自然科学基金

0+阅读 · 2015年12月31日

基于电流模式多方向多涡卷混沌电路的真随机数发生器的研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

Random-Effects Algorithm for Random Objects in Metric Spaces

Arxiv

0+阅读 · 5月4日

Randomized Subspace Nesterov Accelerated Gradient

Arxiv

0+阅读 · 5月1日

Distribution-Free Stochastic Analysis and Robust Multilevel Vector Field Anomaly Detection

Arxiv

0+阅读 · 4月29日

Quantum-Inspired Robust and Scalable SAR Object Classification

Arxiv

0+阅读 · 4月28日

A Robust Nonparametric Framework for Detecting Repeated Spatial Patterns

Arxiv

0+阅读 · 4月22日

Discovering a Shared Logical Subspace: Steering LLM Logical Reasoning via Alignment of Natural-Language and Symbolic Views

Arxiv

0+阅读 · 4月21日

RefineStat: Efficient Exploration for Probabilistic Program Synthesis

Arxiv

0+阅读 · 4月19日

Critical-CoT: A Robust Defense Framework against Reasoning-Level Backdoor Attacks in Large Language Models

Arxiv

0+阅读 · 4月16日

FlowPure: Continuous Normalizing Flows for Adversarial Purification

Arxiv

0+阅读 · 3月30日

Robust domain selection for functional data via interval-wise testing and effect size mapping

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

随机子空间

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

1+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

14+阅读 · 2025年10月6日

【博士论文】对抗鲁棒性深度学习算法

【博士论文】对抗鲁棒性深度学习算法

专知会员服务

16+阅读 · 2025年9月29日

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

29+阅读 · 2024年8月26日

【CVPR2024教程】推理的鲁棒性：走向可解释性、不确定性和可干预性，169页ppt

【CVPR2024教程】推理的鲁棒性：走向可解释性、不确定性和可干预性，169页ppt

专知会员服务

36+阅读 · 2024年6月20日

【阿姆斯特丹博士论文】可解释的视觉分类鲁棒性，102页pdf

【阿姆斯特丹博士论文】可解释的视觉分类鲁棒性，102页pdf

专知会员服务

42+阅读 · 2023年3月26日

【UFPE大学博士论文】基于熵损失的鲁棒深度学习

【UFPE大学博士论文】基于熵损失的鲁棒深度学习

专知会员服务

43+阅读 · 2022年11月11日

面向图像分类的对抗鲁棒性评估综述

面向图像分类的对抗鲁棒性评估综述

专知会员服务

59+阅读 · 2022年10月15日

【硬核书】机器学习对抗鲁棒性，276页pdf

【硬核书】机器学习对抗鲁棒性，276页pdf

专知会员服务

116+阅读 · 2022年9月20日

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

专知会员服务

26+阅读 · 2021年12月27日

【ICML2021】基于子空间的随机几何图并集的谱方法理论

专知会员服务

15+阅读 · 2021年8月29日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知

31+阅读 · 2020年8月27日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

《应用随机微分方程》，324页pdf新书免费分享

《应用随机微分方程》，324页pdf新书免费分享

专知

20+阅读 · 2019年5月6日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

相关论文

Random-Effects Algorithm for Random Objects in Metric Spaces

Arxiv

0+阅读 · 5月4日

Randomized Subspace Nesterov Accelerated Gradient

Arxiv

0+阅读 · 5月1日

Distribution-Free Stochastic Analysis and Robust Multilevel Vector Field Anomaly Detection

Arxiv

0+阅读 · 4月29日

Quantum-Inspired Robust and Scalable SAR Object Classification

Arxiv

0+阅读 · 4月28日

A Robust Nonparametric Framework for Detecting Repeated Spatial Patterns

Arxiv

0+阅读 · 4月22日

Discovering a Shared Logical Subspace: Steering LLM Logical Reasoning via Alignment of Natural-Language and Symbolic Views

Arxiv

0+阅读 · 4月21日

RefineStat: Efficient Exploration for Probabilistic Program Synthesis

Arxiv

0+阅读 · 4月19日

Critical-CoT: A Robust Defense Framework against Reasoning-Level Backdoor Attacks in Large Language Models

Arxiv

0+阅读 · 4月16日

FlowPure: Continuous Normalizing Flows for Adversarial Purification

Arxiv

0+阅读 · 3月30日

Robust domain selection for functional data via interval-wise testing and effect size mapping

Arxiv

0+阅读 · 3月25日

相关基金

基于超连续谱随机起伏并行产生高速、实时物理随机数研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

随机接入中的分布式功率控制和数据包编码传输

国家自然科学基金

0+阅读 · 2015年12月31日

基于电流模式多方向多涡卷混沌电路的真随机数发生器的研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员