Likelihood hacking in probabilistic program synthesis - 专知论文

会员服务 ·

0

似然 · 攻击 · 概率 · 编程 · 概率编程 ·

Likelihood hacking in probabilistic program synthesis

翻译：概率编程综合中的似然攻击

Jacek Karwowski,Younesse Kaddar,Zihuiwen Ye,Nikolay Malkin,Sam Staton

When language models are trained by reinforcement learning (RL) to write probabilistic programs, they can artificially inflate their marginal-likelihood reward by producing programs whose data distribution fails to normalise instead of fitting the data better. We call this failure likelihood hacking (LH). We formalise LH in a core probabilistic programming language (PPL) and give sufficient syntactic conditions for its prevention, proving that a safe language fragment $\mathcal{L}_{\text{safe}}$ satisfying these conditions cannot produce likelihood-hacking programs. Empirically, we show that GRPO-trained models generating PyMC code discover LH exploits within the first few training steps, driving violation rates well above the untrained-model baseline. We implement $\mathcal{L}_{\text{safe}}$'s conditions as $\texttt{SafeStan}$, a LH-resistant modification of Stan, and show empirically that it prevents LH under optimisation pressure. These results show that language-level safety constraints are both theoretically grounded and effective in practice for automated Bayesian model discovery.

翻译：当语言模型通过强化学习（RL）训练以编写概率程序时，它们可以人为地提高其边际似然奖励，通过生成数据分布未能归一化而非更好拟合数据的程序。我们将这种失败称为似然攻击（LH）。我们在一个核心概率编程语言（PPL）中形式化定义了LH，并给出了防止其发生的充分语法条件，证明满足这些条件的安全语言片段$\mathcal{L}_{\text{safe}}$无法产生似然攻击程序。在实验上，我们表明经过GRPO训练的、生成PyMC代码的模型会在最初的几个训练步骤中发现LH漏洞，使得违规率远远高于未训练模型的基线。我们将$\mathcal{L}_{\text{safe}}$的条件实现为$\texttt{SafeStan}$（一种抗LH的Stan修改版），并通过实验表明，在优化压力下它能有效防止LH。这些结果表明，语言层面的安全约束既有理论依据，又在自动化贝叶斯模型发现实践中有效。

0

相关内容

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

专知会员服务

17+阅读 · 2025年11月3日

面向大型推理模型的强化学习综述

面向大型推理模型的强化学习综述

专知会员服务

29+阅读 · 2025年9月11日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

【ETHZ博士论文】《结构化数据的概率模型与近似推断方法》

【ETHZ博士论文】《结构化数据的概率模型与近似推断方法》

专知会员服务

29+阅读 · 2024年11月23日

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

专知会员服务

28+阅读 · 2024年9月21日

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

专知会员服务

30+阅读 · 2024年9月7日

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

专知会员服务

42+阅读 · 2024年3月3日

【NeurIPS2023】强化学习中的概率推理：正确的方法

【NeurIPS2023】强化学习中的概率推理：正确的方法

专知会员服务

28+阅读 · 2023年11月25日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

专知会员服务

63+阅读 · 2020年4月19日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【2022新书】机器学习中的概率数值计算，412页pdf

【2022新书】机器学习中的概率数值计算，412页pdf

专知

33+阅读 · 2022年7月7日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

从最大似然到EM算法：一致的理解方式

从最大似然到EM算法：一致的理解方式

PaperWeekly

19+阅读 · 2018年3月19日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

自相似序列的无理指数、分形及相关问题

国家自然科学基金

0+阅读 · 2015年12月31日

难解问题的固定参数近似算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning

Arxiv

0+阅读 · 4月30日

Scheduling Your LLM Reinforcement Learning with Reasoning Trees

Arxiv

0+阅读 · 4月27日

Reasoning Hijacking: The Fragility of Reasoning Alignment in Large Language Models

Arxiv

0+阅读 · 4月26日

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Arxiv

0+阅读 · 4月20日

Probabilistic Programs of Thought

Arxiv

0+阅读 · 4月19日

RefineStat: Efficient Exploration for Probabilistic Program Synthesis

Arxiv

0+阅读 · 4月19日

Synthetic likelihood in misspecified models

Arxiv

0+阅读 · 4月16日

SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions

Arxiv

0+阅读 · 4月9日

Bypassing Prompt Injection Detectors through Evasive Injections

Arxiv

0+阅读 · 4月1日

P^2O: Joint Policy and Prompt Optimization

Arxiv

0+阅读 · 3月26日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

6+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

专知会员服务

17+阅读 · 2025年11月3日

面向大型推理模型的强化学习综述

面向大型推理模型的强化学习综述

专知会员服务

29+阅读 · 2025年9月11日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

【ETHZ博士论文】《结构化数据的概率模型与近似推断方法》

【ETHZ博士论文】《结构化数据的概率模型与近似推断方法》

专知会员服务

29+阅读 · 2024年11月23日

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

专知会员服务

28+阅读 · 2024年9月21日

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

专知会员服务

30+阅读 · 2024年9月7日

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

专知会员服务

42+阅读 · 2024年3月3日

【NeurIPS2023】强化学习中的概率推理：正确的方法

【NeurIPS2023】强化学习中的概率推理：正确的方法

专知会员服务

28+阅读 · 2023年11月25日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

专知会员服务

63+阅读 · 2020年4月19日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【2022新书】机器学习中的概率数值计算，412页pdf

【2022新书】机器学习中的概率数值计算，412页pdf

专知

33+阅读 · 2022年7月7日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

从最大似然到EM算法：一致的理解方式

从最大似然到EM算法：一致的理解方式

PaperWeekly

19+阅读 · 2018年3月19日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

相关论文

Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning

Arxiv

0+阅读 · 4月30日

Scheduling Your LLM Reinforcement Learning with Reasoning Trees

Arxiv

0+阅读 · 4月27日

Reasoning Hijacking: The Fragility of Reasoning Alignment in Large Language Models

Arxiv

0+阅读 · 4月26日

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Arxiv

0+阅读 · 4月20日

Probabilistic Programs of Thought

Arxiv

0+阅读 · 4月19日

RefineStat: Efficient Exploration for Probabilistic Program Synthesis

Arxiv

0+阅读 · 4月19日

Synthetic likelihood in misspecified models

Arxiv

0+阅读 · 4月16日

SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions

Arxiv

0+阅读 · 4月9日

Bypassing Prompt Injection Detectors through Evasive Injections

Arxiv

0+阅读 · 4月1日

P^2O: Joint Policy and Prompt Optimization

Arxiv

0+阅读 · 3月26日

相关基金

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

自相似序列的无理指数、分形及相关问题

国家自然科学基金

0+阅读 · 2015年12月31日

难解问题的固定参数近似算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员