Adaptive Experimentation at Scale: Bayesian Algorithms for Flexible Batches - 专知论文

会员服务 ·

0

dynamic programming · 赌博机/老虎机 · 统计量 · 最优化 · 缩放 ·

2023 年 3 月 21 日

Adaptive Experimentation at Scale: Bayesian Algorithms for Flexible Batches

翻译：规模化自适应实验：面向灵活批次的贝叶斯算法

Ethan Che,Hongseok Namkoong

Standard bandit algorithms that assume continual reallocation of measurement effort are challenging to implement due to delayed feedback and infrastructural/organizational difficulties. Motivated by practical instances involving a handful of reallocation epochs in which outcomes are measured in batches, we develop a new adaptive experimentation framework that can flexibly handle any batch size. Our main observation is that normal approximations universal in statistical inference can also guide the design of scalable adaptive designs. By deriving an asymptotic sequential experiment, we formulate a dynamic program that can leverage prior information on average rewards. State transitions of the dynamic program are differentiable with respect to the sampling allocations, allowing the use of gradient-based methods for planning and policy optimization. We propose a simple iterative planning method, Residual Horizon Optimization, which selects sampling allocations by optimizing a planning objective via stochastic gradient-based methods. Our method significantly improves statistical power over standard adaptive policies, even when compared to Bayesian bandit algorithms (e.g., Thompson sampling) that require full distributional knowledge of individual rewards. Overall, we expand the scope of adaptive experimentation to settings which are difficult for standard adaptive policies, including problems with a small number of reallocation epochs, low signal-to-noise ratio, and unknown reward distributions.

翻译：标准赌博机算法假设测量力度持续重新分配，但由于反馈延迟及基础设施/组织层面的困难，在实际中难以实施。受涉及少量重新分配时期且结果以批次测量的实际案例启发，我们开发了一种能灵活处理任意批次大小的新型自适应实验框架。我们的核心发现是：统计推断中普遍使用的正态近似方法同样可用于指导可扩展自适应实验的设计。通过推导渐近序贯实验，我们构建了一个能利用平均奖励先验信息的动态规划模型。该动态规划的状态转移关于采样分配可微，从而允许使用基于梯度的方法进行规划和策略优化。我们提出了一种简单的迭代规划方法——残差时域优化，该方法通过随机梯度优化规划目标来选择采样分配。即使与需要完全掌握个体奖励分布信息的贝叶斯赌博机算法（如汤普森采样）相比，我们的方法也能显著提升统计功效。总体而言，我们将自适应实验的应用范围扩展至标准自适应策略难以处理的场景，包括重新分配时期少、信噪比低及奖励分布未知的问题。

0

相关内容

dynamic programming

dynamic programming

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

59+阅读 · 2022年12月10日

干货书！基于单调算子的大规模凸优化，348页pdf

干货书！基于单调算子的大规模凸优化，348页pdf

专知会员服务

50+阅读 · 2022年7月24日

【2022新书】强化学习工业应用，408页pdf

【2022新书】强化学习工业应用，408页pdf

专知会员服务

232+阅读 · 2022年2月3日

不可错过！最新《大规模机器学习》2020教程，133页ppt，台湾清华大学吴尚鸿教授

不可错过！最新《大规模机器学习》2020教程，133页ppt，台湾清华大学吴尚鸿教授

专知会员服务

58+阅读 · 2020年11月8日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf， Large-scale and high-dimensional statistical learning methods and algorithms

专知会员服务

26+阅读 · 2020年6月13日

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

专知会员服务

29+阅读 · 2020年5月26日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

21+阅读 · 2020年3月28日

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

专知会员服务

25+阅读 · 2020年2月28日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

局部学习的特征选择：Local-Learning-Based Feature Selection

局部学习的特征选择：Local-Learning-Based Feature Selection

我爱读PAMI

14+阅读 · 2019年9月20日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

19篇ICML2019论文摘录选读！

19篇ICML2019论文摘录选读！

专知

28+阅读 · 2019年4月28日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

回声干扰抑制中的自适应信号处理算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

e-Learner认知效率建模及自适应调整方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

两类投资组合优化问题的模型与算法研究

国家自然科学基金

2+阅读 · 2013年12月31日

复杂环境下资源受限的无线传感器网络的决策信息融合

国家自然科学基金

0+阅读 · 2012年12月31日

含有缺失值的纵向数据回归模型的稳健推断

国家自然科学基金

3+阅读 · 2012年12月31日

加减归肾丸抗卵巢衰老的作用机理与物质基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

炼化系统大规模动态与多目标优化的GPU异构并行加速策略及方法

国家自然科学基金

2+阅读 · 2012年12月31日

面向海量超高维数据的随机森林算法理论及优化方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于Lyapunov理论和粒子群优化的自励异步发电机稳定自适应PI控制

国家自然科学基金

0+阅读 · 2011年12月31日

Towards Scalable Adaptive Learning with Graph Neural Networks and Reinforcement Learning

Arxiv

0+阅读 · 2023年5月10日

Flexible cost-penalized Bayesian model selection: developing inclusion paths with an application to diagnosis of heart disease

Arxiv

0+阅读 · 2023年5月10日

Bayesian variance change point detection with credible sets

Arxiv

0+阅读 · 2023年5月10日

Fast Teammate Adaptation in the Presence of Sudden Policy Change

Arxiv

0+阅读 · 2023年5月10日

MoCA: Memory-Centric, Adaptive Execution for Multi-Tenant Deep Neural Networks

Arxiv

0+阅读 · 2023年5月10日

Latent Stratification for Incrementality Experiments

Arxiv

0+阅读 · 2023年5月9日

Bayesian Deep Learning for Graphs

Arxiv

23+阅读 · 2022年2月24日

Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks

Arxiv

14+阅读 · 2021年1月31日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

13+阅读 · 2020年8月11日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

VIP会员

文章信息

相关主题

dynamic programming

赌博机/老虎机

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

59+阅读 · 2022年12月10日

干货书！基于单调算子的大规模凸优化，348页pdf

干货书！基于单调算子的大规模凸优化，348页pdf

专知会员服务

50+阅读 · 2022年7月24日

【2022新书】强化学习工业应用，408页pdf

【2022新书】强化学习工业应用，408页pdf

专知会员服务

232+阅读 · 2022年2月3日

不可错过！最新《大规模机器学习》2020教程，133页ppt，台湾清华大学吴尚鸿教授

不可错过！最新《大规模机器学习》2020教程，133页ppt，台湾清华大学吴尚鸿教授

专知会员服务

58+阅读 · 2020年11月8日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf， Large-scale and high-dimensional statistical learning methods and algorithms

专知会员服务

26+阅读 · 2020年6月13日

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

专知会员服务

29+阅读 · 2020年5月26日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

21+阅读 · 2020年3月28日

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

专知会员服务

25+阅读 · 2020年2月28日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

局部学习的特征选择：Local-Learning-Based Feature Selection

局部学习的特征选择：Local-Learning-Based Feature Selection

我爱读PAMI

14+阅读 · 2019年9月20日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

19篇ICML2019论文摘录选读！

19篇ICML2019论文摘录选读！

专知

28+阅读 · 2019年4月28日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Towards Scalable Adaptive Learning with Graph Neural Networks and Reinforcement Learning

Arxiv

0+阅读 · 2023年5月10日

Flexible cost-penalized Bayesian model selection: developing inclusion paths with an application to diagnosis of heart disease

Arxiv

0+阅读 · 2023年5月10日

Bayesian variance change point detection with credible sets

Arxiv

0+阅读 · 2023年5月10日

Fast Teammate Adaptation in the Presence of Sudden Policy Change

Arxiv

0+阅读 · 2023年5月10日

MoCA: Memory-Centric, Adaptive Execution for Multi-Tenant Deep Neural Networks

Arxiv

0+阅读 · 2023年5月10日

Latent Stratification for Incrementality Experiments

Arxiv

0+阅读 · 2023年5月9日

Bayesian Deep Learning for Graphs

Arxiv

23+阅读 · 2022年2月24日

Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks

Arxiv

14+阅读 · 2021年1月31日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

13+阅读 · 2020年8月11日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

相关基金

回声干扰抑制中的自适应信号处理算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

e-Learner认知效率建模及自适应调整方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

两类投资组合优化问题的模型与算法研究

国家自然科学基金

2+阅读 · 2013年12月31日

复杂环境下资源受限的无线传感器网络的决策信息融合

国家自然科学基金

0+阅读 · 2012年12月31日

含有缺失值的纵向数据回归模型的稳健推断

国家自然科学基金

3+阅读 · 2012年12月31日

加减归肾丸抗卵巢衰老的作用机理与物质基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

炼化系统大规模动态与多目标优化的GPU异构并行加速策略及方法

国家自然科学基金

2+阅读 · 2012年12月31日

面向海量超高维数据的随机森林算法理论及优化方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于Lyapunov理论和粒子群优化的自励异步发电机稳定自适应PI控制

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员