论知识编辑去毒化的鲁棒性 (On the Robustness of Knowledge Editing for Detoxification) - 专知论文

会员服务 ·

0

鲁棒 · 知识 · 知识编辑 · 分类器 · 跨语言 ·

On the Robustness of Knowledge Editing for Detoxification

翻译：论知识编辑去毒化的鲁棒性

Ming Dong,Shiyi Tang,Ziyan Peng,Guanyi Chen,Tingting He

Knowledge-Editing-based (KE-based) detoxification has emerged as a promising approach for mitigating harmful behaviours in Large Language Models. Existing evaluations, however, largely rely on automatic toxicity classifiers, implicitly assuming that reduced toxicity scores reflect genuine behavioural suppression. In this work, we propose a robustness-oriented evaluation framework for KE-based detoxification that examines its reliability beyond standard classifier-based metrics along three dimensions: optimisation robustness, compositional robustness, and cross-lingual robustness. We identify pseudo-detoxification as a common failure mode, where apparent toxicity reductions arise from degenerate generation behaviours rather than meaningful suppression of unsafe content. We further show that detoxification effectiveness degrades when multiple unsafe behaviours are edited jointly, and that both monolingual and cross-lingual detoxification remain effective only under specific model-method combinations. Overall, our results indicate that KE-based detoxification is robust only for certain models, limited numbers of detoxification objectives, and a subset of languages.

翻译：基于知识编辑的去毒化已成为缓解大型语言模型有害行为的一种有前景的方法。然而，现有评估主要依赖自动毒性分类器，隐含地假设毒性分数的降低反映了真实的行为抑制。在本工作中，我们提出了一个面向鲁棒性的评估框架，用于评估基于知识编辑的去毒化，该框架从三个维度考察其在标准分类器指标之外的可靠性：优化鲁棒性、组合鲁棒性和跨语言鲁棒性。我们识别出伪去毒化作为一种常见的失效模式，即表面上的毒性降低源于退化的生成行为，而非对不安全内容的有意义抑制。我们进一步表明，当多个不安全行为被联合编辑时，去毒化效果会下降；并且无论是单语言还是跨语言去毒化，其有效性仅在特定的模型-方法组合下才能保持。总体而言，我们的结果表明，基于知识编辑的去毒化仅对特定模型、有限数量的去毒目标以及部分语言具有鲁棒性。

0

相关内容

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

13+阅读 · 2025年10月6日

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

专知会员服务

20+阅读 · 2024年12月5日

ICLR2024 | 语言模型知识编辑的鲁棒性研究

ICLR2024 | 语言模型知识编辑的鲁棒性研究

专知会员服务

18+阅读 · 2024年3月15日

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

专知会员服务

47+阅读 · 2023年6月18日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

25+阅读 · 2022年11月2日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知会员服务

92+阅读 · 2022年9月25日

【斯坦福Nimit Sohoni博士论文】具有有限结构知识的机器学习和优化的鲁棒性

【斯坦福Nimit Sohoni博士论文】具有有限结构知识的机器学习和优化的鲁棒性

专知会员服务

25+阅读 · 2022年5月3日

【俄亥俄州立大学学生论文】鲁棒自然语言理解，74页pdf，Towards More Robust Natural Language Understanding

【俄亥俄州立大学学生论文】鲁棒自然语言理解，74页pdf，Towards More Robust Natural Language Understanding

专知会员服务

19+阅读 · 2022年3月1日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

【干货书】鲁棒优化Robust Optimization，570页pdf

专知会员服务

144+阅读 · 2021年3月17日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

60+阅读 · 2019年6月14日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

读者来稿 | 有效遮挡检测的鲁棒人脸识别

读者来稿 | 有效遮挡检测的鲁棒人脸识别

计算机视觉战队

19+阅读 · 2019年3月28日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

非线性切换系统在线鲁棒近似优化控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

交联质谱法寻找新型毒素的作用靶点

国家自然科学基金

1+阅读 · 2015年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

社会化媒体中基于群体智慧的知识萃取、组织与服务

国家自然科学基金

0+阅读 · 2014年12月31日

城市知识流的表征及其结构演化的复杂性研究

国家自然科学基金

0+阅读 · 2014年12月31日

EAMET: Robust Massive Model Editing via Embedding Alignment Optimization

Arxiv

0+阅读 · 2月10日

Towards Poisoning Robustness Certification for Natural Language Generation

Arxiv

0+阅读 · 2月10日

Robust Policy Optimization to Prevent Catastrophic Forgetting

Arxiv

0+阅读 · 2月9日

Robust Representation Learning in Masked Autoencoders

Arxiv

0+阅读 · 2月3日

Robustness as an Emergent Property of Task Performance

Arxiv

0+阅读 · 2月3日

Beyond Local Edits: Embedding-Virtualized Knowledge for Broader Evaluation and Preservation of Model Editing

Arxiv

0+阅读 · 2月2日

EtCon: Edit-then-Consolidate for Reliable Knowledge Editing

Arxiv

0+阅读 · 1月30日

Breaking the Adversarial Robustness-Performance Trade-off in Text Classification via Manifold Purification

Arxiv

0+阅读 · 1月30日

Some Robustness Properties of Label Cleaning

Arxiv

0+阅读 · 1月28日

Spectral Characterization and Mitigation of Sequential Knowledge Editing Collapse

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

相关VIP内容

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

13+阅读 · 2025年10月6日

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

专知会员服务

20+阅读 · 2024年12月5日

ICLR2024 | 语言模型知识编辑的鲁棒性研究

ICLR2024 | 语言模型知识编辑的鲁棒性研究

专知会员服务

18+阅读 · 2024年3月15日

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

专知会员服务

47+阅读 · 2023年6月18日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

25+阅读 · 2022年11月2日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知会员服务

92+阅读 · 2022年9月25日

【斯坦福Nimit Sohoni博士论文】具有有限结构知识的机器学习和优化的鲁棒性

【斯坦福Nimit Sohoni博士论文】具有有限结构知识的机器学习和优化的鲁棒性

专知会员服务

25+阅读 · 2022年5月3日

【俄亥俄州立大学学生论文】鲁棒自然语言理解，74页pdf，Towards More Robust Natural Language Understanding

【俄亥俄州立大学学生论文】鲁棒自然语言理解，74页pdf，Towards More Robust Natural Language Understanding

专知会员服务

19+阅读 · 2022年3月1日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

【干货书】鲁棒优化Robust Optimization，570页pdf

专知会员服务

144+阅读 · 2021年3月17日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

60+阅读 · 2019年6月14日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

读者来稿 | 有效遮挡检测的鲁棒人脸识别

读者来稿 | 有效遮挡检测的鲁棒人脸识别

计算机视觉战队

19+阅读 · 2019年3月28日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

相关论文

EAMET: Robust Massive Model Editing via Embedding Alignment Optimization

Arxiv

0+阅读 · 2月10日

Towards Poisoning Robustness Certification for Natural Language Generation

Arxiv

0+阅读 · 2月10日

Robust Policy Optimization to Prevent Catastrophic Forgetting

Arxiv

0+阅读 · 2月9日

Robust Representation Learning in Masked Autoencoders

Arxiv

0+阅读 · 2月3日

Robustness as an Emergent Property of Task Performance

Arxiv

0+阅读 · 2月3日

Beyond Local Edits: Embedding-Virtualized Knowledge for Broader Evaluation and Preservation of Model Editing

Arxiv

0+阅读 · 2月2日

EtCon: Edit-then-Consolidate for Reliable Knowledge Editing

Arxiv

0+阅读 · 1月30日

Breaking the Adversarial Robustness-Performance Trade-off in Text Classification via Manifold Purification

Arxiv

0+阅读 · 1月30日

Some Robustness Properties of Label Cleaning

Arxiv

0+阅读 · 1月28日

Spectral Characterization and Mitigation of Sequential Knowledge Editing Collapse

Arxiv

0+阅读 · 1月16日

相关基金

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

非线性切换系统在线鲁棒近似优化控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

交联质谱法寻找新型毒素的作用靶点

国家自然科学基金

1+阅读 · 2015年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

社会化媒体中基于群体智慧的知识萃取、组织与服务

国家自然科学基金

0+阅读 · 2014年12月31日

城市知识流的表征及其结构演化的复杂性研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员