Unifying Adversarial Robustness and Training Across Text Scoring Models - 专知论文

会员服务 ·

0

对抗 · 鲁棒 · 攻击 · 对抗训练 · 对抗鲁棒性 ·

Unifying Adversarial Robustness and Training Across Text Scoring Models

翻译：统一文本评分模型的对抗鲁棒性与训练研究

Manveer Singh Tamber,Hosna Oyarhoseini,Jimmy Lin

Research on adversarial robustness in language models is currently fragmented across applications and attacks, obscuring shared vulnerabilities. In this work, we propose unifying the study of adversarial robustness in text scoring models spanning dense retrievers, rerankers, and reward models. This motivates adapting both attacks and adversarial training methods across model roles. Unlike open-ended generation, text scoring failures are directly testable: an attack succeeds when an irrelevant or rejected text outscores a relevant or chosen one. Using this principled lens of text scoring, we demonstrate that current adversarial training formulations for language models are often short-sighted, failing to effectively generalize across attacks. To address this, we introduce multiple adversarial training methods for text scoring models and show that combining complementary training methods can yield strong robustness while also improving task effectiveness. We also highlight the practical value of our approach for RLHF, showing that our adversarially trained reward models mitigate reward hacking and support the training of better-aligned LLMs. We provide our code and models for further study.

翻译：当前语言模型对抗鲁棒性的研究在不同应用和攻击方式间呈碎片化状态，掩盖了其共有的脆弱性。在本工作中，我们提出统一研究涵盖稠密检索器、重排序器和奖励模型的文本评分模型的对抗鲁棒性。这促使我们针对不同模型角色调整攻击方法与对抗训练方法。与开放式生成任务不同，文本评分失败可直接测试：当无关或被拒绝的文本评分高于相关或被选中的文本时，攻击即告成功。借助文本评分这一原则性视角，我们证明当前语言模型的对抗训练方案通常缺乏远见，无法有效泛化至不同攻击方式。为解决此问题，我们为文本评分模型引入了多种对抗训练方法，并证明结合互补的训练方法能在提升任务效能的同时实现强大的鲁棒性。我们还强调了该方法在RLHF中的实用价值：经对抗训练的奖励模型能缓解奖励破解问题，并支持训练出更对齐的大型语言模型。我们公开了代码与模型以供进一步研究。

0

相关内容

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

专知会员服务

24+阅读 · 2023年8月29日

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

专知会员服务

47+阅读 · 2023年6月18日

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

专知会员服务

41+阅读 · 2023年4月20日

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

专知会员服务

47+阅读 · 2023年4月2日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

25+阅读 · 2022年11月2日

面向图像分类的对抗鲁棒性评估综述

面向图像分类的对抗鲁棒性评估综述

专知会员服务

59+阅读 · 2022年10月15日

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

专知会员服务

28+阅读 · 2022年4月7日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知会员服务

19+阅读 · 2021年12月30日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

一文读懂文本处理中的对抗训练

一文读懂文本处理中的对抗训练

PaperWeekly

22+阅读 · 2019年6月5日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

汉英篇章衔接对齐资源构建与分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

Expanding the Role of Diffusion Models for Robust Classifier Training

Arxiv

0+阅读 · 2月23日

On the Adversarial Robustness of Learning-based Conformal Novelty Detection

Arxiv

0+阅读 · 2月20日

A Theoretical Framework for Modular Learning of Robust Generative Models

Arxiv

0+阅读 · 2月19日

Closing the Distribution Gap in Adversarial Training for LLMs

Arxiv

0+阅读 · 2月18日

Consistency of Large Reasoning Models Under Multi-Turn Attacks

Arxiv

0+阅读 · 2月16日

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 2月14日

Consistency of Large Reasoning Models Under Multi-Turn Attacks

Arxiv

0+阅读 · 2月13日

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 2月10日

Robustness as an Emergent Property of Task Performance

Arxiv

0+阅读 · 2月3日

Breaking the Adversarial Robustness-Performance Trade-off in Text Classification via Manifold Purification

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

对抗鲁棒性

最新内容

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

专知会员服务

1+阅读 · 今天16:15

《基于深度强化学习的反无人机技术研究》178页

《基于深度强化学习的反无人机技术研究》178页

专知会员服务

1+阅读 · 今天16:06

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

专知会员服务

1+阅读 · 今天15:54

“史诗怒火”行动与“AI中心战”模式的浮现

“史诗怒火”行动与“AI中心战”模式的浮现

专知会员服务

1+阅读 · 今天15:31

【CVPR2026教程】扩散模型的解析理解

【CVPR2026教程】扩散模型的解析理解

专知会员服务

0+阅读 · 今天14:49

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

专知会员服务

0+阅读 · 今天14:40

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

13+阅读 · 今天4:12

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

4+阅读 · 今天4:09

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

6+阅读 · 今天4:02

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

5+阅读 · 今天3:54

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

4+阅读 · 今天3:33

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

3+阅读 · 今天3:23

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

3+阅读 · 今天3:15

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

专知会员服务

3+阅读 · 今天3:09

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

7+阅读 · 6月9日

相关VIP内容

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

专知会员服务

24+阅读 · 2023年8月29日

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

专知会员服务

47+阅读 · 2023年6月18日

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

专知会员服务

41+阅读 · 2023年4月20日

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

专知会员服务

47+阅读 · 2023年4月2日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

25+阅读 · 2022年11月2日

面向图像分类的对抗鲁棒性评估综述

面向图像分类的对抗鲁棒性评估综述

专知会员服务

59+阅读 · 2022年10月15日

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

专知会员服务

28+阅读 · 2022年4月7日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知会员服务

19+阅读 · 2021年12月30日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于深度强化学习的反无人机技术研究》178页

“史诗怒火”行动与“AI中心战”模式的浮现

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

相关资讯

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

一文读懂文本处理中的对抗训练

一文读懂文本处理中的对抗训练

PaperWeekly

22+阅读 · 2019年6月5日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Expanding the Role of Diffusion Models for Robust Classifier Training

Arxiv

0+阅读 · 2月23日

On the Adversarial Robustness of Learning-based Conformal Novelty Detection

Arxiv

0+阅读 · 2月20日

A Theoretical Framework for Modular Learning of Robust Generative Models

Arxiv

0+阅读 · 2月19日

Closing the Distribution Gap in Adversarial Training for LLMs

Arxiv

0+阅读 · 2月18日

Consistency of Large Reasoning Models Under Multi-Turn Attacks

Arxiv

0+阅读 · 2月16日

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 2月14日

Consistency of Large Reasoning Models Under Multi-Turn Attacks

Arxiv

0+阅读 · 2月13日

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 2月10日

Robustness as an Emergent Property of Task Performance

Arxiv

0+阅读 · 2月3日

Breaking the Adversarial Robustness-Performance Trade-off in Text Classification via Manifold Purification

Arxiv

0+阅读 · 1月30日

相关基金

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

汉英篇章衔接对齐资源构建与分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员