We study Online Convex Optimization (OCO) over a convex set $K\subseteq \mathbb R^d$, where in each round $t$ the learner selects $x_t\in K$ and then observes a convex loss $f_t:K\to[0,1]$, with the goal of minimizing regret to the best fixed decision in hindsight. We introduce a unified probing model that generalizes two recent lines of work: sublinear best-expert queries in the experts setting, and pairwise (comparison-based) feedback available every round in OCO. In our framework, the learner has a budget of $k\le T$ pairwise probes; on a probed round it may query two points and learn which one has smaller loss. Our main result shows that even a sublinear and noisy probe budget can provably improve worst-case regret in the full feedback OCO regime. With $k$ $δ$-noisy pairwise probes, we obtain: $ \text{Reg}_T \le O\left(\min\left\{\sqrt{dT\ln T},\; \frac{dT\ln T}{k|1-2δ|}\right\}\right) $, which is tight (up to logarithmic factors in $T$) across $T$, $k$ and $δ$. Specifically regarding the noise parameter $δ\in [0,1]$, the regret guarantee smoothly degrades as the oracle response approaches a coin flip, i.e., $δ$ is close to $\frac{1}{2}$. When applying the same techniques to a finite $K$ for the prediction with $d$ experts setting, the resulting rates are instead completely tight in all parameters, including $d$. Our analysis gives a streamlined treatment of pairwise probing in OCO by quantifying the benefit of probing via a variance reduction effect, combined with a second-order (variance-based) analysis of Continuous Exponential Weights.


翻译:我们研究凸集 $K\subseteq \mathbb R^d$ 上的在线凸优化(OCO),其中每轮 $t$ 中学习器选择 $x_t\in K$ 并观测到凸损失函数 $f_t:K\to[0,1]$,目标是最小化相对于事后最优固定决策的遗憾值。我们提出一个统一探测模型,该模型概括了近期两个研究方向:专家设置中亚线性最优专家查询,以及 OCO 中每轮可用的成对(基于比较)反馈。在此框架中,学习器拥有至多 $k\le T$ 次成对探测的预算;在被探测的轮次中,它可以查询两个点并获知哪个点的损失较小。我们的主要结果表明,即使是在完全反馈 OCO 机制下,亚线性且含噪声的探测预算也能确保改进最坏情况遗憾值。利用 $k$ 次 $\delta$ 噪声成对探测,我们得到:$ \text{Reg}_T \le O\left(\min\left\{\sqrt{dT\ln T},\; \frac{dT\ln T}{k|1-2\delta|}\right\}\right) $,该界在 $T$、$k$ 和 $\delta$ 上(忽略 $T$ 的对数因子)是紧的。具体而言,对于噪声参数 $\delta\in [0,1]$,当预言机响应趋近于抛硬币(即 $\delta$ 接近 $\frac{1}{2}$)时,遗憾保证平滑退化。当将相同技术应用于具有 $d$ 个专家的有限集 $K$ 上的预测问题时,所得到的速率在所有参数(包括 $d$)上完全紧。我们的分析通过量化探测带来的方差缩减效应,并结合连续指数加权法的二阶(基于方差)分析,为 OCO 中的成对探测提供了简洁的处理方法。

0
下载
关闭预览

相关内容

机器学习必读新书-《凸优化算法原理详解》,334页pdf
专知会员服务
97+阅读 · 2022年1月4日
【2021新书稿】在线凸优化导论(第二版),260页pdf
专知会员服务
74+阅读 · 2021年12月23日
【经典书】凸优化理论,MIT-Dimitri P. Bertsekas教授,257页pdf
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
231+阅读 · 2020年6月5日
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
博客 | 机器学习中的数学基础(凸优化)
AI研习社
14+阅读 · 2018年12月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员