Quantifying True Robustness: Synonymity-Weighted Similarity for Trustworthy XAI Evaluation - 专知论文

会员服务 ·

0

XAI · 攻击 · 鲁棒 · 相似性 · 对抗 ·

2025 年 12 月 29 日

Quantifying True Robustness: Synonymity-Weighted Similarity for Trustworthy XAI Evaluation

翻译：量化真实鲁棒性：基于同义性加权的相似性度量用于可信XAI评估

Christopher Burger

from arxiv, 10 pages, 2 figures, 6 tables. Changes to title, abstract and minor edits to the content as a result of acceptance to the 59th Hawaii International Conference on System Sciences

Adversarial attacks challenge the reliability of Explainable AI (XAI) by altering explanations while the model's output remains unchanged. The success of these attacks on text-based XAI is often judged using standard information retrieval metrics. We argue these measures are poorly suited in the evaluation of trustworthiness, as they treat all word perturbations equally while ignoring synonymity, which can misrepresent an attack's true impact. To address this, we apply synonymity weighting, a method that amends these measures by incorporating the semantic similarity of perturbed words. This produces more accurate vulnerability assessments and provides an important tool for assessing the robustness of AI systems. Our approach prevents the overestimation of attack success, leading to a more faithful understanding of an XAI system's true resilience against adversarial manipulation.

翻译：对抗性攻击通过改变解释而保持模型输出不变，从而挑战可解释人工智能（XAI）的可靠性。针对文本XAI的攻击成功率通常使用标准信息检索指标进行评估。我们认为这些指标在可信度评估中适用性不足，因为它们对所有词汇扰动一视同仁而忽略同义性，可能错误表征攻击的真实影响。为解决此问题，我们应用同义性加权方法，通过融入扰动词语义相似性来修正这些指标。该方法可生成更精确的脆弱性评估，并为评估AI系统鲁棒性提供重要工具。我们的方法避免了攻击成功率高估问题，从而更真实地理解XAI系统对抗对抗性操纵的实际韧性。

0

相关内容

XAI

可解释人工智能（XAI）：从内在可解释性到大语言模型

可解释人工智能（XAI）：从内在可解释性到大语言模型

专知会员服务

34+阅读 · 2025年1月20日

金融时间序列预测中的可解释人工智能（XAI）综述

金融时间序列预测中的可解释人工智能（XAI）综述

专知会员服务

44+阅读 · 2024年7月25日

可解释人工智能中的对抗攻击和防御

可解释人工智能中的对抗攻击和防御

专知会员服务

43+阅读 · 2023年6月20日

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

专知会员服务

105+阅读 · 2023年2月19日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知会员服务

92+阅读 · 2022年9月25日

XAI+网络安全？布兰登大学等最新《可解释人工智能在网络安全应用》综述，33页pdf阐述其现状、挑战、开放问题和未来方向

XAI+网络安全？布兰登大学等最新《可解释人工智能在网络安全应用》综述，33页pdf阐述其现状、挑战、开放问题和未来方向

专知会员服务

65+阅读 · 2022年7月3日

XAI实用技术有哪些？普渡大学SIGMOD2022最新《可解释人工智能》教程，130+PPT阐述XAI的基础、应用、机会，附视频

XAI实用技术有哪些？普渡大学SIGMOD2022最新《可解释人工智能》教程，130+PPT阐述XAI的基础、应用、机会，附视频

专知会员服务

95+阅读 · 2022年6月30日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知会员服务

19+阅读 · 2021年12月30日

【干货书】可解释人工智能(xAI)方法和深度元学习模型

【干货书】可解释人工智能(xAI)方法和深度元学习模型

专知会员服务

62+阅读 · 2020年9月13日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

推荐！《可解释人工智能及其军事意义》【译文】印智库ORF2022最新报告

推荐！《可解释人工智能及其军事意义》【译文】印智库ORF2022最新报告

专知

40+阅读 · 2022年11月4日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

推荐！【中文版】瑞典国防研究局《可解释人工智能：探索XAI技术在军事深度学习中的应用》56页技术报告

推荐！【中文版】瑞典国防研究局《可解释人工智能：探索XAI技术在军事深度学习中的应用》56页技术报告

专知

17+阅读 · 2022年7月8日

XAI是否靠谱？美国DARPA「可解释人工智能」（XAI计划）的4年回顾与经验总结，附中文版

XAI是否靠谱？美国DARPA「可解释人工智能」（XAI计划）的4年回顾与经验总结，附中文版

专知

29+阅读 · 2022年4月3日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

可解释AI(XAI)工具集—DrWhy

可解释AI(XAI)工具集—DrWhy

专知

25+阅读 · 2019年6月4日

机器学习可解释性工具箱XAI

机器学习可解释性工具箱XAI

专知

11+阅读 · 2019年2月8日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

样本特性对海洋遥感产品真实性检验的定量化影响研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向信息优势的预警信息系统综合效能评估研究与仿真验证

国家自然科学基金

21+阅读 · 2012年12月31日

Trade-offs in Financial AI: Explainability in a Trilemma with Accuracy and Compliance

Arxiv

0+阅读 · 2月1日

Evaluating Actionability in Explainable AI

Arxiv

0+阅读 · 1月27日

Contrastive Spectral Rectification: Test-Time Defense towards Zero-shot Adversarial Robustness of CLIP

Arxiv

0+阅读 · 1月27日

UrgentMOS: Unified Multi-Metric and Preference Learning for Robust Speech Quality Assessment

Arxiv

0+阅读 · 1月26日

Sy-FAR: Symmetry-based Fair Adversarial Robustness

Arxiv

0+阅读 · 1月19日

Evaluating the Ability of Explanations to Disambiguate Models in a Rashomon Set

Arxiv

0+阅读 · 1月13日

Robust Mean Estimation under Quantization

Arxiv

0+阅读 · 1月11日

Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency

Arxiv

0+阅读 · 1月9日

Robust Uncertainty Quantification for Factual Generation of Large Language Models

Arxiv

0+阅读 · 1月1日

RobustMask: Certified Robustness against Adversarial Neural Ranking Attack via Randomized Masking

Arxiv

0+阅读 · 2025年12月29日

VIP会员

文章信息

相关主题

最新内容

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

1+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

1+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

1+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

1+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

0+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

9+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

12+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

4+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

4+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

14+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

3+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

14+阅读 · 4月18日

相关VIP内容

可解释人工智能（XAI）：从内在可解释性到大语言模型

可解释人工智能（XAI）：从内在可解释性到大语言模型

专知会员服务

34+阅读 · 2025年1月20日

金融时间序列预测中的可解释人工智能（XAI）综述

金融时间序列预测中的可解释人工智能（XAI）综述

专知会员服务

44+阅读 · 2024年7月25日

可解释人工智能中的对抗攻击和防御

可解释人工智能中的对抗攻击和防御

专知会员服务

43+阅读 · 2023年6月20日

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

专知会员服务

105+阅读 · 2023年2月19日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知会员服务

92+阅读 · 2022年9月25日

XAI+网络安全？布兰登大学等最新《可解释人工智能在网络安全应用》综述，33页pdf阐述其现状、挑战、开放问题和未来方向

XAI+网络安全？布兰登大学等最新《可解释人工智能在网络安全应用》综述，33页pdf阐述其现状、挑战、开放问题和未来方向

专知会员服务

65+阅读 · 2022年7月3日

XAI实用技术有哪些？普渡大学SIGMOD2022最新《可解释人工智能》教程，130+PPT阐述XAI的基础、应用、机会，附视频

XAI实用技术有哪些？普渡大学SIGMOD2022最新《可解释人工智能》教程，130+PPT阐述XAI的基础、应用、机会，附视频

专知会员服务

95+阅读 · 2022年6月30日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知会员服务

19+阅读 · 2021年12月30日

【干货书】可解释人工智能(xAI)方法和深度元学习模型

【干货书】可解释人工智能(xAI)方法和深度元学习模型

专知会员服务

62+阅读 · 2020年9月13日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

热门VIP内容

开通专知VIP会员享更多权益服务

军事通信系统与设备的技术演进综述

《北约标准：医疗评估手册》174页

乌克兰前线的五项创新

《北约 AI手册：作战人员的实用考量》（2026最新64页）

相关资讯

推荐！《可解释人工智能及其军事意义》【译文】印智库ORF2022最新报告

推荐！《可解释人工智能及其军事意义》【译文】印智库ORF2022最新报告

专知

40+阅读 · 2022年11月4日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

推荐！【中文版】瑞典国防研究局《可解释人工智能：探索XAI技术在军事深度学习中的应用》56页技术报告

推荐！【中文版】瑞典国防研究局《可解释人工智能：探索XAI技术在军事深度学习中的应用》56页技术报告

专知

17+阅读 · 2022年7月8日

XAI是否靠谱？美国DARPA「可解释人工智能」（XAI计划）的4年回顾与经验总结，附中文版

XAI是否靠谱？美国DARPA「可解释人工智能」（XAI计划）的4年回顾与经验总结，附中文版

专知

29+阅读 · 2022年4月3日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

可解释AI(XAI)工具集—DrWhy

可解释AI(XAI)工具集—DrWhy

专知

25+阅读 · 2019年6月4日

机器学习可解释性工具箱XAI

机器学习可解释性工具箱XAI

专知

11+阅读 · 2019年2月8日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Trade-offs in Financial AI: Explainability in a Trilemma with Accuracy and Compliance

Arxiv

0+阅读 · 2月1日

Evaluating Actionability in Explainable AI

Arxiv

0+阅读 · 1月27日

Contrastive Spectral Rectification: Test-Time Defense towards Zero-shot Adversarial Robustness of CLIP

Arxiv

0+阅读 · 1月27日

UrgentMOS: Unified Multi-Metric and Preference Learning for Robust Speech Quality Assessment

Arxiv

0+阅读 · 1月26日

Sy-FAR: Symmetry-based Fair Adversarial Robustness

Arxiv

0+阅读 · 1月19日

Evaluating the Ability of Explanations to Disambiguate Models in a Rashomon Set

Arxiv

0+阅读 · 1月13日

Robust Mean Estimation under Quantization

Arxiv

0+阅读 · 1月11日

Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency

Arxiv

0+阅读 · 1月9日

Robust Uncertainty Quantification for Factual Generation of Large Language Models

Arxiv

0+阅读 · 1月1日

RobustMask: Certified Robustness against Adversarial Neural Ranking Attack via Randomized Masking

Arxiv

0+阅读 · 2025年12月29日

相关基金

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

样本特性对海洋遥感产品真实性检验的定量化影响研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向信息优势的预警信息系统综合效能评估研究与仿真验证

国家自然科学基金

21+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员