Efficient Preference Poisoning Attack on Offline RLHF - 专知论文

会员服务 ·

0

binary · 翻转 · 标注 · 数据集 · Learning ·

Efficient Preference Poisoning Attack on Offline RLHF

翻译：暂无翻译

Chenye Yang,Weiyu Xu,Lifeng Lai

Offline Reinforcement Learning from Human Feedback (RLHF) pipelines such as Direct Preference Optimization (DPO) train on a pre-collected preference dataset, which makes them vulnerable to preference poisoning attack. We study label flip attacks against log-linear DPO. We first illustrate that flipping one preference label induces a parameter-independent shift in the DPO gradient. Using this key property, we can then convert the targeted poisoning problem into a structured binary sparse approximation problem. To solve this problem, we develop two attack methods: Binary-Aware Lattice Attack (BAL-A) and Binary Matching Pursuit Attack (BMP-A). BAL-A embeds the binary flip selection problem into a binary-aware lattice and applies Lenstra-Lenstra-Lovász reduction and Babai's nearest plane algorithm; we provide sufficient conditions that enforce binary coefficients and recover the minimum-flip objective. BMP-A adapts binary matching pursuit to our non-normalized gradient dictionary and yields coherence-based recovery guarantees and robustness (impossibility) certificates for $K$-flip budgets. Experiments on synthetic dictionaries and the Stanford Human Preferences dataset validate the theory and highlight how dictionary geometry governs attack success.

翻译：暂无翻译

0

相关内容

binary

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

专知会员服务

29+阅读 · 2025年4月7日

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

87+阅读 · 2023年12月3日

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

77+阅读 · 2023年8月27日

调查分析两百余篇大模型论文，数十位研究者一文综述RLHF的挑战与局限

调查分析两百余篇大模型论文，数十位研究者一文综述RLHF的挑战与局限

专知会员服务

50+阅读 · 2023年8月1日

【新书推荐】清华最新《RL for Sequential Decision and Optimal Control》书籍

【新书推荐】清华最新《RL for Sequential Decision and Optimal Control》书籍

专知会员服务

74+阅读 · 2023年5月21日

71页ppt！指令微调和RLHF讲座(NYU CSCI 2590) 附视频

71页ppt！指令微调和RLHF讲座(NYU CSCI 2590) 附视频

专知会员服务

52+阅读 · 2023年5月20日

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

专知会员服务

42+阅读 · 2022年5月12日

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

10+阅读 · 2019年10月24日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【强化学习研讨会|Microsoft Research】减少强化学习的样本复杂性，171页pdf，多伦多大学|Sheila McIlraith

【强化学习研讨会|Microsoft Research】减少强化学习的样本复杂性，171页pdf，多伦多大学|Sheila McIlraith

专知会员服务

14+阅读 · 2019年10月3日

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

Link prediction | 三篇SEAL相关工作小结

Link prediction | 三篇SEAL相关工作小结

AINLP

48+阅读 · 2020年11月17日

一文读懂Attention机制

一文读懂Attention机制

机器学习与推荐算法

63+阅读 · 2020年6月9日

【学界】ICLR2019少样本学习新思路：利用转导(Transductive)和标签传播

【学界】ICLR2019少样本学习新思路：利用转导(Transductive)和标签传播

GAN生成式对抗网络

61+阅读 · 2019年1月18日

ICLR2019少样本学习新思路：利用转导(Transductive)和标签传播

ICLR2019少样本学习新思路：利用转导(Transductive)和标签传播

专知

57+阅读 · 2019年1月18日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

KingsGarden

13+阅读 · 2017年7月16日

车联网环境下基于路段负载链估测与优化的动态交通诱导方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

TLRs受体报告基因技术导向筛选三七免疫调节作用的物质基础及质量评价方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

光遗传学技术应用于研究上丘相关皮层下神经环路对本能防御行为的调控

国家自然科学基金

0+阅读 · 2015年12月31日

TLR8对肝癌细胞的免疫调控及其靶向治疗

国家自然科学基金

0+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

用于癫痫发作预测的脑电特征深度学习研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向帕金森病的多模态在线预警方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

Turn-on型次磺酸荧光探针的设计与合成

国家自然科学基金

0+阅读 · 2015年12月31日

针刺促进大鼠损伤脊髓皮质远程调控中SNAP25的作用及7.0T MR分子影像研究

国家自然科学基金

0+阅读 · 2014年12月31日

Exploration Hacking: Can LLMs Learn to Resist RL Training?

Arxiv

0+阅读 · 4月30日

Contextual Online Uncertainty-Aware Preference Learning for Human Feedback

Arxiv

0+阅读 · 4月30日

TSN-Affinity: Similarity-Driven Parameter Reuse for Continual Offline Reinforcement Learning

Arxiv

0+阅读 · 4月28日

Three Models of RLHF Annotation: Extension, Evidence, and Authority

Arxiv

0+阅读 · 4月28日

ParetoSlider: Diffusion Models Post-Training for Continuous Reward Control

Arxiv

0+阅读 · 4月22日

Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling

Arxiv

0+阅读 · 4月14日

Dynamic Dual-Granularity Skill Bank for Agentic RL

Arxiv

0+阅读 · 3月30日

Gaze patterns predict preference and confidence in pairwise AI image evaluation

Arxiv

0+阅读 · 3月25日

End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions

Arxiv

0+阅读 · 3月24日

CausalRM: Causal-Theoretic Reward Modeling for RLHF from Observational User Feedbacks

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

7+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

4+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

4+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

5+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

7+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

13+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

5+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

7+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

2+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

11+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

9+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

专知会员服务

29+阅读 · 2025年4月7日

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

87+阅读 · 2023年12月3日

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

77+阅读 · 2023年8月27日

调查分析两百余篇大模型论文，数十位研究者一文综述RLHF的挑战与局限

调查分析两百余篇大模型论文，数十位研究者一文综述RLHF的挑战与局限

专知会员服务

50+阅读 · 2023年8月1日

【新书推荐】清华最新《RL for Sequential Decision and Optimal Control》书籍

【新书推荐】清华最新《RL for Sequential Decision and Optimal Control》书籍

专知会员服务

74+阅读 · 2023年5月21日

71页ppt！指令微调和RLHF讲座(NYU CSCI 2590) 附视频

71页ppt！指令微调和RLHF讲座(NYU CSCI 2590) 附视频

专知会员服务

52+阅读 · 2023年5月20日

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

专知会员服务

42+阅读 · 2022年5月12日

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

10+阅读 · 2019年10月24日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【强化学习研讨会|Microsoft Research】减少强化学习的样本复杂性，171页pdf，多伦多大学|Sheila McIlraith

【强化学习研讨会|Microsoft Research】减少强化学习的样本复杂性，171页pdf，多伦多大学|Sheila McIlraith

专知会员服务

14+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

Link prediction | 三篇SEAL相关工作小结

Link prediction | 三篇SEAL相关工作小结

AINLP

48+阅读 · 2020年11月17日

一文读懂Attention机制

一文读懂Attention机制

机器学习与推荐算法

63+阅读 · 2020年6月9日

【学界】ICLR2019少样本学习新思路：利用转导(Transductive)和标签传播

【学界】ICLR2019少样本学习新思路：利用转导(Transductive)和标签传播

GAN生成式对抗网络

61+阅读 · 2019年1月18日

ICLR2019少样本学习新思路：利用转导(Transductive)和标签传播

ICLR2019少样本学习新思路：利用转导(Transductive)和标签传播

专知

57+阅读 · 2019年1月18日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

KingsGarden

13+阅读 · 2017年7月16日

相关论文

Exploration Hacking: Can LLMs Learn to Resist RL Training?

Arxiv

0+阅读 · 4月30日

Contextual Online Uncertainty-Aware Preference Learning for Human Feedback

Arxiv

0+阅读 · 4月30日

TSN-Affinity: Similarity-Driven Parameter Reuse for Continual Offline Reinforcement Learning

Arxiv

0+阅读 · 4月28日

Three Models of RLHF Annotation: Extension, Evidence, and Authority

Arxiv

0+阅读 · 4月28日

ParetoSlider: Diffusion Models Post-Training for Continuous Reward Control

Arxiv

0+阅读 · 4月22日

Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling

Arxiv

0+阅读 · 4月14日

Dynamic Dual-Granularity Skill Bank for Agentic RL

Arxiv

0+阅读 · 3月30日

Gaze patterns predict preference and confidence in pairwise AI image evaluation

Arxiv

0+阅读 · 3月25日

End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions

Arxiv

0+阅读 · 3月24日

CausalRM: Causal-Theoretic Reward Modeling for RLHF from Observational User Feedbacks

Arxiv

0+阅读 · 3月19日

相关基金

车联网环境下基于路段负载链估测与优化的动态交通诱导方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

TLRs受体报告基因技术导向筛选三七免疫调节作用的物质基础及质量评价方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

光遗传学技术应用于研究上丘相关皮层下神经环路对本能防御行为的调控

国家自然科学基金

0+阅读 · 2015年12月31日

TLR8对肝癌细胞的免疫调控及其靶向治疗

国家自然科学基金

0+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

用于癫痫发作预测的脑电特征深度学习研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向帕金森病的多模态在线预警方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

Turn-on型次磺酸荧光探针的设计与合成

国家自然科学基金

0+阅读 · 2015年12月31日

针刺促进大鼠损伤脊髓皮质远程调控中SNAP25的作用及7.0T MR分子影像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员