It Takes One to Bias Them All: Breaking Bad with One-Shot GRPO - 专知论文

会员服务 ·

0

有偏 · MoDELS · 样例 · 语言模型化 · Facebook AI Research ·

It Takes One to Bias Them All: Breaking Bad with One-Shot GRPO

翻译：暂无翻译

Naihao Deng,Yilun Zhu,Naichen Shi,Clayton Scott,Rada Mihalcea

Warning: This paper contains several toxic and offensive statements. Modern large language models (LLMs) are typically aligned through large-scale post-training to ensure fair and reliable behavior. In this work, we investigate how easily such guardrails can be broken by Group Relative Policy Optimization (GRPO). We show that one-shot GRPO training on a single biased example is sufficient to induce systematic bias, with stereotype-driven reasoning generalizing across attributes, categories, and benchmarks. We further find that models differ in their susceptibility based on the initial likelihood of producing biased outputs. Our results reveal a critical vulnerability in post-training: alignment can be overridden by a single example.

翻译：暂无翻译

0

相关内容

AAAI 2026 | 构建模板-定理知识图谱以增强大语言模型的数学推理能力

AAAI 2026 | 构建模板-定理知识图谱以增强大语言模型的数学推理能力

专知会员服务

20+阅读 · 1月17日

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

专知会员服务

10+阅读 · 2025年3月22日

《使用生成式大语言模型进行多语言事件提取》最新85页

《使用生成式大语言模型进行多语言事件提取》最新85页

专知会员服务

24+阅读 · 2025年2月16日

KDD25 | 大语言模型能否提高图神经网络的对抗鲁棒性？

KDD25 | 大语言模型能否提高图神经网络的对抗鲁棒性？

专知会员服务

19+阅读 · 2024年12月18日

【ICML2024】揭示Graph Transformers 中的过全局化问题

【ICML2024】揭示Graph Transformers 中的过全局化问题

专知会员服务

21+阅读 · 2024年5月27日

NeurIPS 2023｜LLM给CLIP加buff了！LaCLIP：利用大模型重写文本改进 CLIP 训练

NeurIPS 2023｜LLM给CLIP加buff了！LaCLIP：利用大模型重写文本改进 CLIP 训练

专知会员服务

35+阅读 · 2024年1月13日

【EMNLP 2023】基于大语言模型辩论的多智能体协作推理分析

【EMNLP 2023】基于大语言模型辩论的多智能体协作推理分析

专知会员服务

44+阅读 · 2023年11月27日

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

专知会员服务

27+阅读 · 2023年11月19日

【超赞的#C++#速查&信息图】“hacking c++ - Cheat Sheets & Infographics”

【超赞的#C++#速查&信息图】“hacking c++ - Cheat Sheets & Infographics”

专知会员服务

30+阅读 · 2022年3月8日

从One-hot, Word embedding到Transformer，一步步教你理解Bert

从One-hot, Word embedding到Transformer，一步步教你理解Bert

AI100

15+阅读 · 2019年6月25日

站在BERT肩膀上的NLP新秀们（PART I）

站在BERT肩膀上的NLP新秀们（PART I）

AINLP

30+阅读 · 2019年6月4日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

从 Word Embedding 到 Bert：一起肢解 Bert！

从 Word Embedding 到 Bert：一起肢解 Bert！

人工智能头条

17+阅读 · 2018年12月11日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Single-Shot Object Detection with Enriched Semantics

Single-Shot Object Detection with Enriched Semantics

统计学习与视觉计算组

14+阅读 · 2018年8月29日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

100+中文词向量，总有一款适合你

100+中文词向量，总有一款适合你

专知

12+阅读 · 2018年5月13日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

动态 | Goodfellow最新对抗样本，连人类都分不清是狗是猫

动态 | Goodfellow最新对抗样本，连人类都分不清是狗是猫

AI科技评论

11+阅读 · 2018年2月25日

近Kenmotsu流形的曲率与Ricci孤立子

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

自相似序列的无理指数、分形及相关问题

国家自然科学基金

0+阅读 · 2015年12月31日

t-设计与多重传递群和Z_4码

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

一类Schrodinger-Maxwell 系统解的存在性与多解性研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

The Language Blind Spot: How Query Language and Brand Recognition Tier Shape AI-Constructed Brand Reputation Across Twelve European Languages

Arxiv

0+阅读 · 6月22日

Not All Claims Are Equally Risky: FACTOR for Adaptive Verification in Factual Long-Form Generation

Arxiv

0+阅读 · 6月21日

Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding

Arxiv

0+阅读 · 6月20日

Pseudo-Deliberation in Language Models: When Reasoning Fails to Align Values and Actions

Arxiv

0+阅读 · 6月19日

Robot Critics that Sweat the Small Stuff

Arxiv

0+阅读 · 6月19日

Beyond Grading Accuracy: Exploring Alignment of TAs and LLMs

Arxiv

0+阅读 · 6月17日

Diffusion-Proof: Recipe for Formal Theorem Proving Beyond Auto-Regressive Generation

Arxiv

0+阅读 · 6月17日

FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs

Arxiv

0+阅读 · 6月17日

DeSRPA: Decoupled Speech Role-Playing Agent via Inference-Time Intervention

Arxiv

0+阅读 · 6月16日

Algospeak, Hiding in the Open: The Trade-off Between Legible Meaning and Detection Avoidance

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

语言模型化

Facebook AI Research

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

9+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

AAAI 2026 | 构建模板-定理知识图谱以增强大语言模型的数学推理能力

AAAI 2026 | 构建模板-定理知识图谱以增强大语言模型的数学推理能力

专知会员服务

20+阅读 · 1月17日

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

专知会员服务

10+阅读 · 2025年3月22日

《使用生成式大语言模型进行多语言事件提取》最新85页

《使用生成式大语言模型进行多语言事件提取》最新85页

专知会员服务

24+阅读 · 2025年2月16日

KDD25 | 大语言模型能否提高图神经网络的对抗鲁棒性？

KDD25 | 大语言模型能否提高图神经网络的对抗鲁棒性？

专知会员服务

19+阅读 · 2024年12月18日

【ICML2024】揭示Graph Transformers 中的过全局化问题

【ICML2024】揭示Graph Transformers 中的过全局化问题

专知会员服务

21+阅读 · 2024年5月27日

NeurIPS 2023｜LLM给CLIP加buff了！LaCLIP：利用大模型重写文本改进 CLIP 训练

NeurIPS 2023｜LLM给CLIP加buff了！LaCLIP：利用大模型重写文本改进 CLIP 训练

专知会员服务

35+阅读 · 2024年1月13日

【EMNLP 2023】基于大语言模型辩论的多智能体协作推理分析

【EMNLP 2023】基于大语言模型辩论的多智能体协作推理分析

专知会员服务

44+阅读 · 2023年11月27日

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

专知会员服务

27+阅读 · 2023年11月19日

【超赞的#C++#速查&信息图】“hacking c++ - Cheat Sheets & Infographics”

【超赞的#C++#速查&信息图】“hacking c++ - Cheat Sheets & Infographics”

专知会员服务

30+阅读 · 2022年3月8日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

从One-hot, Word embedding到Transformer，一步步教你理解Bert

从One-hot, Word embedding到Transformer，一步步教你理解Bert

AI100

15+阅读 · 2019年6月25日

站在BERT肩膀上的NLP新秀们（PART I）

站在BERT肩膀上的NLP新秀们（PART I）

AINLP

30+阅读 · 2019年6月4日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

从 Word Embedding 到 Bert：一起肢解 Bert！

从 Word Embedding 到 Bert：一起肢解 Bert！

人工智能头条

17+阅读 · 2018年12月11日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Single-Shot Object Detection with Enriched Semantics

Single-Shot Object Detection with Enriched Semantics

统计学习与视觉计算组

14+阅读 · 2018年8月29日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

100+中文词向量，总有一款适合你

100+中文词向量，总有一款适合你

专知

12+阅读 · 2018年5月13日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

动态 | Goodfellow最新对抗样本，连人类都分不清是狗是猫

动态 | Goodfellow最新对抗样本，连人类都分不清是狗是猫

AI科技评论

11+阅读 · 2018年2月25日

相关论文

The Language Blind Spot: How Query Language and Brand Recognition Tier Shape AI-Constructed Brand Reputation Across Twelve European Languages

Arxiv

0+阅读 · 6月22日

Not All Claims Are Equally Risky: FACTOR for Adaptive Verification in Factual Long-Form Generation

Arxiv

0+阅读 · 6月21日

Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding

Arxiv

0+阅读 · 6月20日

Pseudo-Deliberation in Language Models: When Reasoning Fails to Align Values and Actions

Arxiv

0+阅读 · 6月19日

Robot Critics that Sweat the Small Stuff

Arxiv

0+阅读 · 6月19日

Beyond Grading Accuracy: Exploring Alignment of TAs and LLMs

Arxiv

0+阅读 · 6月17日

Diffusion-Proof: Recipe for Formal Theorem Proving Beyond Auto-Regressive Generation

Arxiv

0+阅读 · 6月17日

FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs

Arxiv

0+阅读 · 6月17日

DeSRPA: Decoupled Speech Role-Playing Agent via Inference-Time Intervention

Arxiv

0+阅读 · 6月16日

Algospeak, Hiding in the Open: The Trade-off Between Legible Meaning and Detection Avoidance

Arxiv

0+阅读 · 5月7日

相关基金

近Kenmotsu流形的曲率与Ricci孤立子

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

自相似序列的无理指数、分形及相关问题

国家自然科学基金

0+阅读 · 2015年12月31日

t-设计与多重传递群和Z_4码

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

一类Schrodinger-Maxwell 系统解的存在性与多解性研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员