Robust In-Context Reinforcement Learning Under Reward Poisoning Attacks - 专知论文

会员服务 ·

0

攻击 · 鲁棒 · 上下文 · 对抗 · 投毒攻击 ·

Robust In-Context Reinforcement Learning Under Reward Poisoning Attacks

翻译：鲁棒环境中奖赏投毒攻击下的上下文强化学习

Paulius Sasnauskas,Yiğit Yalın,Goran Radanović

from arxiv, ICML 2026, code available at https://github.com/PauliusSasnauskas/AT-DPT

We study the corruption-robustness of in-context reinforcement learning (ICRL), focusing on the Decision-Pretrained Transformer (DPT, Lee et al., 2023). To address the challenge of reward poisoning attacks targeting the DPT, we propose a novel adversarial training framework, called Adversarially Trained DPT (AT-DPT). Our method simultaneously trains a population of attackers to minimize the true reward of the DPT by poisoning environment rewards, and a DPT model to infer optimal actions from the poisoned data. We evaluate the effectiveness of our approach against standard bandit algorithms, including robust baselines designed to handle reward contamination. Our results show that AT-DPT significantly outperforms them in bandit settings under a learned attacker, and generalizes to more complex environments such as adaptive attackers and MDPs. It shows promise in ICRL as a meta-RL approach to learning effective corruption-robust algorithms.

翻译：我们研究了上下文强化学习在腐败环境下的鲁棒性，重点关注决策预训练变换器（DPT，Lee等人，2023）。针对针对DPT的奖赏投毒攻击挑战，我们提出了一种新颖的对抗训练框架，称为对抗训练DPT（AT-DPT）。我们的方法同时训练一组攻击者通过投毒环境奖赏来最小化DPT的真实奖赏，以及一个DPT模型从投毒数据中推断最优动作。我们在对抗标准赌博机算法（包括专为处理奖赏污染而设计的鲁棒基线）的背景下评估了我们方法的有效性。结果表明，在学习的攻击者设定下，AT-DPT在赌博机环境中显著优于这些基线，并且能够泛化到更复杂的环境中，如自适应攻击者和马尔可夫决策过程。作为元强化学习方法，AT-DPT在学习有效鲁棒腐败算法方面展现出在上下文强化学习中的潜力。

0

相关内容

《用于建模系统攻击路径的强化学习环境》

《用于建模系统攻击路径的强化学习环境》

专知会员服务

22+阅读 · 3月5日

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

11+阅读 · 2025年10月21日

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

14+阅读 · 2025年10月6日

【博士论文】对抗鲁棒性深度学习算法

【博士论文】对抗鲁棒性深度学习算法

专知会员服务

16+阅读 · 2025年9月29日

【CMU博士论文】基于课程学习的鲁棒强化学习

【CMU博士论文】基于课程学习的鲁棒强化学习

专知会员服务

20+阅读 · 2025年3月27日

【博士论文】安全的线上和线下强化学习，142页pdf

【博士论文】安全的线上和线下强化学习，142页pdf

专知会员服务

23+阅读 · 2024年6月12日

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

专知会员服务

42+阅读 · 2023年4月20日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

专知会员服务

28+阅读 · 2022年4月7日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

一文了解强化学习

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

GAN生成式对抗网络

11+阅读 · 2017年11月2日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于多节点协作的高鲁棒性低度复杂的抗窃听技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

光遗传学技术应用于研究上丘相关皮层下神经环路对本能防御行为的调控

国家自然科学基金

0+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Robust Instruction Compliance in Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月10日

When Poison Fails After Retrieval: Revisiting Corpus Poisoning under Chunking and Reranking Pipelines

Arxiv

0+阅读 · 6月9日

Safe-RULE: Safe Reinforcement UnLEarning

Arxiv

0+阅读 · 6月8日

Robust Ensemble of Selectively Strengthened and Augmented Predictors

Arxiv

0+阅读 · 6月4日

Robust Shielding for Safe Reinforcement Learning

Arxiv

0+阅读 · 5月29日

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月29日

EnCAgg: Enhanced Clustering Aggregation for Robust Federated Learning against Dynamic Model Poisoning

Arxiv

0+阅读 · 5月21日

The Pareto Frontier of Randomized Learning-Augmented Online Bidding

Arxiv

0+阅读 · 5月14日

Optimal Attention Temperature Improves the Robustness of In-Context Learning under Distribution Shift in High Dimensions

Arxiv

0+阅读 · 5月11日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 今天15:26

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

0+阅读 · 今天15:19

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

《用于建模系统攻击路径的强化学习环境》

《用于建模系统攻击路径的强化学习环境》

专知会员服务

22+阅读 · 3月5日

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

11+阅读 · 2025年10月21日

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

14+阅读 · 2025年10月6日

【博士论文】对抗鲁棒性深度学习算法

【博士论文】对抗鲁棒性深度学习算法

专知会员服务

16+阅读 · 2025年9月29日

【CMU博士论文】基于课程学习的鲁棒强化学习

【CMU博士论文】基于课程学习的鲁棒强化学习

专知会员服务

20+阅读 · 2025年3月27日

【博士论文】安全的线上和线下强化学习，142页pdf

【博士论文】安全的线上和线下强化学习，142页pdf

专知会员服务

23+阅读 · 2024年6月12日

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

专知会员服务

42+阅读 · 2023年4月20日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

专知会员服务

28+阅读 · 2022年4月7日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

一文了解强化学习

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

GAN生成式对抗网络

11+阅读 · 2017年11月2日

相关论文

Robust Instruction Compliance in Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月10日

When Poison Fails After Retrieval: Revisiting Corpus Poisoning under Chunking and Reranking Pipelines

Arxiv

0+阅读 · 6月9日

Safe-RULE: Safe Reinforcement UnLEarning

Arxiv

0+阅读 · 6月8日

Robust Ensemble of Selectively Strengthened and Augmented Predictors

Arxiv

0+阅读 · 6月4日

Robust Shielding for Safe Reinforcement Learning

Arxiv

0+阅读 · 5月29日

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月29日

EnCAgg: Enhanced Clustering Aggregation for Robust Federated Learning against Dynamic Model Poisoning

Arxiv

0+阅读 · 5月21日

The Pareto Frontier of Randomized Learning-Augmented Online Bidding

Arxiv

0+阅读 · 5月14日

Optimal Attention Temperature Improves the Robustness of In-Context Learning under Distribution Shift in High Dimensions

Arxiv

0+阅读 · 5月11日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于多节点协作的高鲁棒性低度复杂的抗窃听技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

光遗传学技术应用于研究上丘相关皮层下神经环路对本能防御行为的调控

国家自然科学基金

0+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员