Reinforced sequential Monte Carlo for amortised sampling - 专知论文

会员服务 ·

0

样本 · 蒙特卡罗 · SMC · 泛函 · Weight ·

Reinforced sequential Monte Carlo for amortised sampling

翻译：强化序列蒙特卡洛方法用于摊销采样

Sanghyeok Choi,Sarthak Mittal,Víctor Elvira,Jinkyoo Park,Esmeralda S. Whitammer

from arxiv, ICML 2026. Code: https://github.com/hyeok9855/ReinforcedSMC

This paper proposes a synergy of amortised and particle-based methods for sampling from distributions defined by unnormalised density functions. We state a connection between sequential Monte Carlo (SMC) and neural sequential samplers trained by maximum-entropy reinforcement learning (MaxEnt RL), wherein learnt sampling policies and value functions define proposal kernels and twist functions. Exploiting this connection, we introduce an off-policy RL training procedure for the sampler that uses samples from SMC -- using the learnt sampler as a proposal -- as a behaviour policy that better explores the target distribution. We describe techniques for stable joint training of proposals and twist functions and an adaptive weight tempering scheme to reduce training signal variance. Furthermore, building upon past attempts to use experience replay to guide the training of neural samplers, we derive a way to combine historical samples with annealed importance sampling weights within a replay buffer. On synthetic multi-modal targets (in both continuous and discrete spaces) and the Boltzmann distribution of alanine dipeptide conformations, we demonstrate improvements in approximating the true distribution as well as training stability compared to both amortised and Monte Carlo methods.

翻译：本文提出了一种将摊销方法与基于粒子的方法相结合的协同方案，用于从由非归一化密度函数定义的分布中进行采样。我们建立了序列蒙特卡洛方法与最大熵强化学习训练的神经序列采样器之间的联系，其中学习到的采样策略与价值函数分别定义了提议核与扭曲函数。利用这一联系，我们引入了一种基于离策略强化学习的训练流程：将使用学习到的采样器作为提议分布的序列蒙特卡洛采样结果作为行为策略，从而更有效地探索目标分布。我们描述了用于稳定联合训练提议与扭曲函数的技术，以及一种自适应权重退火方案以降低训练信号方差。此外，基于先前利用经验回放指导神经采样器训练的尝试，我们推导出一种在回放缓冲区中结合历史样本与退火重要性采样权重的方法。在合成多模态目标（包括连续与离散空间）以及丙氨酸二肽构象的玻尔兹曼分布上，我们证明了所提方法相较于纯摊销方法与蒙特卡洛方法，在近似真实分布及训练稳定性方面的提升。

0

相关内容

【2023新书】摊销优化: 学习在连续空间中进行优化,100页pdf

【2023新书】摊销优化: 学习在连续空间中进行优化,100页pdf

专知会员服务

36+阅读 · 2023年7月30日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

【牛津大学】多级蒙特卡洛方法，70页pdf

【牛津大学】多级蒙特卡洛方法，70页pdf

专知会员服务

61+阅读 · 2022年2月3日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知会员服务

61+阅读 · 2020年3月14日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【何恺明团队新论文】PointRend:将图像分割视作渲染问题，性能显著提升！

【何恺明团队新论文】PointRend:将图像分割视作渲染问题，性能显著提升！

专知会员服务

28+阅读 · 2019年12月19日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

专知会员服务

40+阅读 · 2019年11月23日

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

专知

14+阅读 · 2020年8月7日

推荐系统主流召回方法综述

推荐系统主流召回方法综述

AINLP

10+阅读 · 2020年7月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

不用数学讲清马尔可夫链蒙特卡洛方法？

不用数学讲清马尔可夫链蒙特卡洛方法？

算法与数学之美

16+阅读 · 2018年8月8日

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

Chatbots技术与产品

42+阅读 · 2018年6月13日

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

大数据文摘

11+阅读 · 2018年6月12日

强化学习——蒙特卡洛方法介绍

强化学习——蒙特卡洛方法介绍

论智

12+阅读 · 2018年6月3日

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

算法与数学之美

10+阅读 · 2018年1月4日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

模糊收敛群及其在粗糙集中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

随机波动率模型下金融衍生产品定价中的条件蒙特卡罗加速方法

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

大型稀疏非对称线性方程组的归纳降维算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

适定的多元样条逼近方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

强非线性偏微分方程基于梯度重构的新型算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Proximal Policy Optimization for Amortized Discrete Sampling

Arxiv

0+阅读 · 6月14日

A Diffusion Monte Carlo algorithm employing depth first traversal and a stack instead of a swarm

Arxiv

0+阅读 · 6月8日

A New Perspective on Reverse Diffusion for Monte Carlo Sampling

Arxiv

0+阅读 · 6月3日

Generalized Posterior Calibration via Sequential Monte Carlo Sampler

Arxiv

0+阅读 · 6月2日

Score-Repellent Monte Carlo: Toward Efficient Non-Markovian Sampler with Constant Memory in General State Spaces

Arxiv

0+阅读 · 5月22日

Amortized Neural Clustering of Time Series based on Statistical Features

Arxiv

0+阅读 · 5月13日

Randomized quasi-Monte Carlo for walk on spheres

Arxiv

0+阅读 · 5月8日

Diffusion Path Samplers via Sequential Monte Carlo

Arxiv

0+阅读 · 5月8日

Analysis of kinetic Langevin Monte Carlo under the stochastic exponential Euler discretization from underdamped all the way to overdamped

Arxiv

0+阅读 · 5月7日

GPU-Accelerated Sequential Monte Carlo for Bayesian Spectral Analysis

Arxiv

0+阅读 · 3月23日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

【2023新书】摊销优化: 学习在连续空间中进行优化,100页pdf

【2023新书】摊销优化: 学习在连续空间中进行优化,100页pdf

专知会员服务

36+阅读 · 2023年7月30日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

【牛津大学】多级蒙特卡洛方法，70页pdf

【牛津大学】多级蒙特卡洛方法，70页pdf

专知会员服务

61+阅读 · 2022年2月3日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知会员服务

61+阅读 · 2020年3月14日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【何恺明团队新论文】PointRend:将图像分割视作渲染问题，性能显著提升！

【何恺明团队新论文】PointRend:将图像分割视作渲染问题，性能显著提升！

专知会员服务

28+阅读 · 2019年12月19日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

专知会员服务

40+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

专知

14+阅读 · 2020年8月7日

推荐系统主流召回方法综述

推荐系统主流召回方法综述

AINLP

10+阅读 · 2020年7月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

不用数学讲清马尔可夫链蒙特卡洛方法？

不用数学讲清马尔可夫链蒙特卡洛方法？

算法与数学之美

16+阅读 · 2018年8月8日

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

Chatbots技术与产品

42+阅读 · 2018年6月13日

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

大数据文摘

11+阅读 · 2018年6月12日

强化学习——蒙特卡洛方法介绍

强化学习——蒙特卡洛方法介绍

论智

12+阅读 · 2018年6月3日

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

算法与数学之美

10+阅读 · 2018年1月4日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

相关论文

Proximal Policy Optimization for Amortized Discrete Sampling

Arxiv

0+阅读 · 6月14日

A Diffusion Monte Carlo algorithm employing depth first traversal and a stack instead of a swarm

Arxiv

0+阅读 · 6月8日

A New Perspective on Reverse Diffusion for Monte Carlo Sampling

Arxiv

0+阅读 · 6月3日

Generalized Posterior Calibration via Sequential Monte Carlo Sampler

Arxiv

0+阅读 · 6月2日

Score-Repellent Monte Carlo: Toward Efficient Non-Markovian Sampler with Constant Memory in General State Spaces

Arxiv

0+阅读 · 5月22日

Amortized Neural Clustering of Time Series based on Statistical Features

Arxiv

0+阅读 · 5月13日

Randomized quasi-Monte Carlo for walk on spheres

Arxiv

0+阅读 · 5月8日

Diffusion Path Samplers via Sequential Monte Carlo

Arxiv

0+阅读 · 5月8日

Analysis of kinetic Langevin Monte Carlo under the stochastic exponential Euler discretization from underdamped all the way to overdamped

Arxiv

0+阅读 · 5月7日

GPU-Accelerated Sequential Monte Carlo for Bayesian Spectral Analysis

Arxiv

0+阅读 · 3月23日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

模糊收敛群及其在粗糙集中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

随机波动率模型下金融衍生产品定价中的条件蒙特卡罗加速方法

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

大型稀疏非对称线性方程组的归纳降维算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

适定的多元样条逼近方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

强非线性偏微分方程基于梯度重构的新型算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员