Towards Poisoning Robustness Certification for Natural Language Generation - 专知论文

会员服务 ·

0

鲁棒 · 有效性 · 语言生成 · 算法 · 自然语言生成 ·

Towards Poisoning Robustness Certification for Natural Language Generation

翻译：面向自然语言生成的投毒鲁棒性认证研究

Mihnea Ghitu,Matthew Wicker

Understanding the reliability of natural language generation is critical for deploying foundation models in security-sensitive domains. While certified poisoning defenses provide provable robustness bounds for classification tasks, they are fundamentally ill-equipped for autoregressive generation: they cannot handle sequential predictions or the exponentially large output space of language models. To establish a framework for certified natural language generation, we formalize two security properties: stability (robustness to any change in generation) and validity (robustness to targeted, harmful changes in generation). We introduce Targeted Partition Aggregation (TPA), the first algorithm to certify validity/targeted attacks by computing the minimum poisoning budget needed to induce a specific harmful class, token, or phrase. Further, we extend TPA to provide tighter guarantees for multi-turn generations using mixed integer linear programming (MILP). Empirically, we demonstrate TPA's effectiveness across diverse settings including: certifying validity of agent tool-calling when adversaries modify up to 0.5% of the dataset and certifying 8-token stability horizons in preference-based alignment. Though inference-time latency remains an open challenge, our contributions enable certified deployment of language models in security-critical applications.

翻译：理解自然语言生成的可靠性对于在安全敏感领域部署基础模型至关重要。虽然经过认证的投毒防御能为分类任务提供可证明的鲁棒性边界，但它们本质上无法适用于自回归生成任务：既无法处理序列预测，也无法应对语言模型指数级庞大的输出空间。为建立经过认证的自然语言生成框架，我们形式化定义了两种安全属性：稳定性（对生成过程中任意变化的鲁棒性）与有效性（对生成过程中定向有害变化的鲁棒性）。我们提出了目标分区聚合算法，这是首个通过计算诱导特定有害类别、标记或短语所需的最小投毒预算来认证有效性/定向攻击的算法。此外，我们通过混合整数线性规划扩展了目标分区聚合算法，为多轮次生成提供更严格的保证。实证研究表明，目标分区聚合算法在多种场景中均展现有效性：包括在对抗者修改高达0.5%数据集时认证智能体工具调用的有效性，以及在基于偏好的对齐任务中认证8个标记的稳定性边界。尽管推理时延仍是待解决的挑战，我们的研究成果为语言模型在安全关键应用中的认证部署提供了技术支撑。

0

相关内容

【剑桥大学博士论文】评估自然语言生成任务的语法性、忠实度和多样性，192页pdf

【剑桥大学博士论文】评估自然语言生成任务的语法性、忠实度和多样性，192页pdf

专知会员服务

23+阅读 · 2024年4月3日

【牛津大学博士论文】自然语言处理的鲁棒性研究，194页pdf

【牛津大学博士论文】自然语言处理的鲁棒性研究，194页pdf

专知会员服务

26+阅读 · 2024年2月26日

基于深度学习的自然语言处理鲁棒性研究

基于深度学习的自然语言处理鲁棒性研究

专知会员服务

30+阅读 · 2024年1月15日

自然语言生成技术及其在军事领域应用

自然语言生成技术及其在军事领域应用

专知会员服务

83+阅读 · 2023年1月6日

面向图像分类的对抗鲁棒性评估综述

面向图像分类的对抗鲁棒性评估综述

专知会员服务

59+阅读 · 2022年10月15日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

【俄亥俄州立大学学生论文】鲁棒自然语言理解，74页pdf，Towards More Robust Natural Language Understanding

【俄亥俄州立大学学生论文】鲁棒自然语言理解，74页pdf，Towards More Robust Natural Language Understanding

专知会员服务

19+阅读 · 2022年3月1日

面向自然语言处理的对抗攻防与鲁棒性分析综述

专知会员服务

32+阅读 · 2021年9月5日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

专知会员服务

49+阅读 · 2019年11月15日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

福利|免费公开课《自然语言处理在证券行业中的应用》

福利|免费公开课《自然语言处理在证券行业中的应用》

数据分析

15+阅读 · 2018年9月3日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于量子模糊承诺体系的生物身份认证系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂自然环境下的棉花病叶分割与病害识别的鲁棒性方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

被动声纳中的导向自校正鲁棒自适应波束形成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Detecting Data Poisoning in Code Generation LLMs via Black-Box, Vulnerability-Oriented Scanning

Arxiv

0+阅读 · 3月17日

Directional Embedding Smoothing for Robust Vision Language Models

Arxiv

0+阅读 · 3月16日

Operational Robustness of LLMs on Code Generation

Arxiv

0+阅读 · 2月21日

On the Robustness of Knowledge Editing for Detoxification

Arxiv

0+阅读 · 2月11日

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 2月10日

Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation

Arxiv

0+阅读 · 2月8日

Confundo: Learning to Generate Robust Poison for Practical RAG Systems

Arxiv

0+阅读 · 2月6日

Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment

Arxiv

0+阅读 · 2月2日

Safety-Efficacy Trade Off: Robustness against Data-Poisoning

Arxiv

0+阅读 · 1月31日

Agnostic Language Identification and Generation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

自然语言生成

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

3+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

5+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

3+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

2+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

10+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

7+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

3+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

7+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

3+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

3+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

6+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

相关VIP内容

【剑桥大学博士论文】评估自然语言生成任务的语法性、忠实度和多样性，192页pdf

【剑桥大学博士论文】评估自然语言生成任务的语法性、忠实度和多样性，192页pdf

专知会员服务

23+阅读 · 2024年4月3日

【牛津大学博士论文】自然语言处理的鲁棒性研究，194页pdf

【牛津大学博士论文】自然语言处理的鲁棒性研究，194页pdf

专知会员服务

26+阅读 · 2024年2月26日

基于深度学习的自然语言处理鲁棒性研究

基于深度学习的自然语言处理鲁棒性研究

专知会员服务

30+阅读 · 2024年1月15日

自然语言生成技术及其在军事领域应用

自然语言生成技术及其在军事领域应用

专知会员服务

83+阅读 · 2023年1月6日

面向图像分类的对抗鲁棒性评估综述

面向图像分类的对抗鲁棒性评估综述

专知会员服务

59+阅读 · 2022年10月15日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

【俄亥俄州立大学学生论文】鲁棒自然语言理解，74页pdf，Towards More Robust Natural Language Understanding

【俄亥俄州立大学学生论文】鲁棒自然语言理解，74页pdf，Towards More Robust Natural Language Understanding

专知会员服务

19+阅读 · 2022年3月1日

面向自然语言处理的对抗攻防与鲁棒性分析综述

专知会员服务

32+阅读 · 2021年9月5日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

专知会员服务

49+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

福利|免费公开课《自然语言处理在证券行业中的应用》

福利|免费公开课《自然语言处理在证券行业中的应用》

数据分析

15+阅读 · 2018年9月3日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

Detecting Data Poisoning in Code Generation LLMs via Black-Box, Vulnerability-Oriented Scanning

Arxiv

0+阅读 · 3月17日

Directional Embedding Smoothing for Robust Vision Language Models

Arxiv

0+阅读 · 3月16日

Operational Robustness of LLMs on Code Generation

Arxiv

0+阅读 · 2月21日

On the Robustness of Knowledge Editing for Detoxification

Arxiv

0+阅读 · 2月11日

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 2月10日

Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation

Arxiv

0+阅读 · 2月8日

Confundo: Learning to Generate Robust Poison for Practical RAG Systems

Arxiv

0+阅读 · 2月6日

Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment

Arxiv

0+阅读 · 2月2日

Safety-Efficacy Trade Off: Robustness against Data-Poisoning

Arxiv

0+阅读 · 1月31日

Agnostic Language Identification and Generation

Arxiv

0+阅读 · 1月30日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于量子模糊承诺体系的生物身份认证系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂自然环境下的棉花病叶分割与病害识别的鲁棒性方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

被动声纳中的导向自校正鲁棒自适应波束形成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员