In many modern applications, a system must dynamically choose between several adaptive learning algorithms that are trained online. Examples include model selection in streaming environments, switching between trading strategies in finance, and orchestrating multiple contextual bandit or reinforcement learning agents. At each round, a learner must select one predictor among $K$ adaptive experts to make a prediction, while being able to update at most $M \le K$ of them under a fixed training budget. We address this problem in the \emph{stochastic setting} and introduce \algname{M-LCB}, a computationally efficient UCB-style meta-algorithm that provides \emph{anytime regret guarantees}. Its confidence intervals are built directly from realized losses, require no additional optimization, and seamlessly reflect the convergence properties of the underlying experts. If each expert achieves internal regret $\tilde O(T^α)$, then \algname{M-LCB} ensures overall regret bounded by $\tilde O\!\Bigl(\sqrt{\tfrac{KT}{M}} \;+\; (K/M)^{1-α}\,T^α\Bigr)$. To our knowledge, this is the first result establishing regret guarantees when multiple adaptive experts are trained simultaneously under per-round budget constraints. We illustrate the framework with two representative cases: (i) parametric models trained online with stochastic losses, and (ii) experts that are themselves multi-armed bandit algorithms. These examples highlight how \algname{M-LCB} extends the classical bandit paradigm to the more realistic scenario of coordinating stateful, self-learning experts under limited resources.


翻译:在许多现代应用中,系统必须动态选择在多个在线训练的自适应学习算法之间进行切换。典型场景包括流式环境中的模型选择、金融领域中交易策略的切换,以及协调多个上下文赌博机或强化学习智能体。在每一轮中,学习者必须从$K$个自适应专家中选择一个预测器进行预测,同时在固定训练预算下最多只能更新其中$M \le K$个专家。我们在\emph{随机环境}下研究该问题,提出\algname{M-LCB}——一种计算高效的UCB风格元算法,该算法提供\emph{任意时间遗憾保证}。其置信区间直接基于已实现的损失构建,无需额外优化,并能无缝反映底层专家的收敛特性。若每个专家实现内部遗憾$\tilde O(T^α)$,则\algname{M-LCB}确保整体遗憾上界为$\tilde O\!\Bigl(\sqrt{\tfrac{KT}{M}} \;+\; (K/M)^{1-α}\,T^α\Bigr)$。据我们所知,这是在每轮预算约束下同时训练多个自适应专家时建立遗憾保证的首个理论结果。我们通过两个代表性案例说明该框架:(i) 在随机损失下在线训练的参数模型;(ii) 本身为多臂赌博机算法的专家。这些案例展示了\algname{M-LCB}如何将经典赌博机范式扩展到资源受限条件下协调具有状态的自学习专家这一更现实的场景。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
Machine Learning:十大机器学习算法
开源中国
21+阅读 · 2018年3月1日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2月5日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员