赌博机论文 - 专知

会员服务 ·

赌博机

Online LLM Selection via Constrained Bandits with Time-Varying Demand

Arxiv

0+阅读 · 6月16日

Near-Optimal Stochastic Linear Bandits with Delay

Arxiv

0+阅读 · 6月15日

DAL: A Practical Prior-Free Black-Box Framework for Piecewise Stationary Bandits

Arxiv

0+阅读 · 6月13日

Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts

Arxiv

0+阅读 · 6月12日

Near-Optimal Regret for Distributed Adversarial Bandits: A Black-Box Approach

Arxiv

0+阅读 · 6月15日

Sharp analysis of linear ensemble sampling

Arxiv

0+阅读 · 6月13日

Capacity-Constrained Online Convex Optimization with Delayed Feedback

Arxiv

0+阅读 · 6月10日

Compute Allocation in Evolutionary Search: From Depth-Breadth to Multi-Armed Bandits

Arxiv

0+阅读 · 5月29日

Non-Stationary Bandit Learning via Predictive Sampling

Arxiv

0+阅读 · 6月6日

Multi-Armed Bandits with Arriving Arms: Sequential Screening, Dynamic Regret, and Sublinear Guarantees

Arxiv

0+阅读 · 6月8日

Exploration via linearly perturbed loss minimisation

Arxiv

0+阅读 · 6月4日

Mixing Makes Markovian Contexts Cheap for Linear Bandits

Arxiv

0+阅读 · 6月11日

Asymptotic Theory and Sequential Testing for Adaptive Bandits

Arxiv

0+阅读 · 5月30日

Offline-to-Online Learning in Linear Bandits

Arxiv

0+阅读 · 6月3日

Buzz, Choose, Forget: A Meta-Bandit Framework for Bee-Like Decision Making

Arxiv

0+阅读 · 6月2日

参考链接

微信扫码咨询专知VIP会员