Online platforms routinely compare multi-armed bandit algorithms, such as UCB and Thompson Sampling, to select the best-performing policy. Unlike standard A/B tests for static treatments, each run of a bandit algorithm over $T$ users produces only one dependent trajectory, because the algorithm's decisions depend on all past interactions. Reliable inference therefore demands many independent restarts of the algorithm, making experimentation costly and delaying deployment decisions. We propose Artificial Replay (AR) as a new experimental design for this problem. AR first runs one policy and records its trajectory. When the second policy is executed, it reuses a recorded reward whenever it selects an action the first policy already took, and queries the real environment only otherwise. We develop a new analytical framework for this design and prove three key properties of the resulting estimator: it is unbiased; it requires only $T + o(T)$ user interactions instead of $2T$ for a run of the treatment and control policies, nearly halving the experimental cost when both policies have sub-linear regret; and its variance grows sub-linearly in $T$, whereas the estimator from a naïve design has a linearly-growing variance. Numerical experiments with UCB, Thompson Sampling, and $ε$-greedy policies confirm these theoretical gains.


翻译:在线平台通常通过比较多臂老虎机算法(如UCB和汤普森采样)来选择性能最优的策略。与针对静态处理的标准A/B测试不同,算法在$T$个用户上的每次运行仅产生一条依赖轨迹,因为算法的决策依赖于所有历史交互。因此,可靠的推断需要算法的多次独立重启,这使得实验成本高昂并延迟部署决策。针对此问题,我们提出人工回放作为新的实验设计方案。AR首先运行一种策略并记录其轨迹;当执行第二种策略时,若其选择的动作与第一种策略已执行动作相同,则复用已记录的奖励,否则才向真实环境查询。我们为此设计开发了新的分析框架,并证明了所得估计量的三个关键性质:该估计量具有无偏性;仅需$T + o(T)$次用户交互而非两种策略运行所需的$2T$次,当两种策略均具有次线性遗憾时实验成本近乎减半;其方差在$T$上呈次线性增长,而朴素设计的估计量方差呈线性增长。采用UCB、汤普森采样和$ε$-贪心策略的数值实验验证了这些理论优势。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
融合先验知识的异构多智能体强化学习算法研究
专知会员服务
69+阅读 · 2024年4月9日
《科学机器学习中神经网络结构的比较》最新65页报告
专知会员服务
28+阅读 · 2024年3月5日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
人工智能学家
11+阅读 · 2019年2月15日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
文本分类实战: 机器学习vs深度学习算法对比(附代码)
机器学习研究会
35+阅读 · 2017年10月25日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
1+阅读 · 今天15:35
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关VIP内容
融合先验知识的异构多智能体强化学习算法研究
专知会员服务
69+阅读 · 2024年4月9日
《科学机器学习中神经网络结构的比较》最新65页报告
专知会员服务
28+阅读 · 2024年3月5日
相关资讯
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
人工智能学家
11+阅读 · 2019年2月15日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
文本分类实战: 机器学习vs深度学习算法对比(附代码)
机器学习研究会
35+阅读 · 2017年10月25日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员