多臂赌博机论文 - 专知

会员服务 ·

多臂赌博机

多臂赌博机

Anytime-valid Optimal Policy Identification

Arxiv

0+阅读 · 6月16日

Near-Optimal Stochastic Linear Bandits with Delay

Arxiv

0+阅读 · 6月15日

Compute Allocation in Evolutionary Search: From Depth-Breadth to Multi-Armed Bandits

Arxiv

0+阅读 · 5月29日

Multi-Armed Bandits with Arriving Arms: Sequential Screening, Dynamic Regret, and Sublinear Guarantees

Arxiv

0+阅读 · 6月8日

Buzz, Choose, Forget: A Meta-Bandit Framework for Bee-Like Decision Making

Arxiv

0+阅读 · 6月2日

Neural Variance-aware Dueling Bandits with Deep Representation and Shallow Exploration

Arxiv

0+阅读 · 6月3日

Robust Restless Multi-Armed Bandit for Data Center Flexibility Services Through Virtual Machine Scheduling

Arxiv

0+阅读 · 5月18日

Robust Restless Multi-Armed Bandit for Data Center Flexibility Services Through Virtual Machine Scheduling

Arxiv

0+阅读 · 6月4日

Vanishing L2 regularization for the softmax Multi Armed Bandit

Arxiv

0+阅读 · 5月5日

Regret Analysis of Sleeping Competing Bandits

Arxiv

0+阅读 · 3月20日

Best-Arm Identification with Noisy Actuation

Arxiv

0+阅读 · 4月2日

Fitting Reinforcement Learning Model to Behavioral Data under Bandits

Arxiv

0+阅读 · 3月26日

Asymptotically and Minimax Optimal Regret Bounds for Multi-Armed Bandits with Abstention

Arxiv

0+阅读 · 3月22日

When Do We Need LLMs? A Diagnostic for Language-Driven Bandits

Arxiv

0+阅读 · 4月7日

A Multi-Armed Bandit-Based Participant Selection Method for Federated Recommendation Systems

Arxiv

0+阅读 · 3月29日

参考链接

微信扫码咨询专知VIP会员