In this paper, we consider an online optimization problem over $T$ rounds where at each step $t\in[T]$, the algorithm chooses an action $x_t$ from the fixed convex and compact domain set $\mathcal{K}$. A utility function $f_t(\cdot)$ is then revealed and the algorithm receives the payoff $f_t(x_t)$. This problem has been previously studied under the assumption that the utilities are adversarially chosen monotone DR-submodular functions and $\mathcal{O}(\sqrt{T})$ regret bounds have been derived. We first characterize the class of strongly DR-submodular functions and then, we derive regret bounds for the following new online settings: $(1)$ $\{f_t\}_{t=1}^T$ are monotone strongly DR-submodular and chosen adversarially, $(2)$ $\{f_t\}_{t=1}^T$ are monotone submodular (while the average $\frac{1}{T}\sum_{t=1}^T f_t$ is strongly DR-submodular) and chosen by an adversary but they arrive in a uniformly random order, $(3)$ $\{f_t\}_{t=1}^T$ are drawn i.i.d. from some unknown distribution $f_t\sim \mathcal{D}$ where the expected function $f(\cdot)=\mathbb{E}_{f_t\sim\mathcal{D}}[f_t(\cdot)]$ is monotone DR-submodular. For $(1)$, we obtain the first logarithmic regret bounds. In terms of the second framework, we show that it is possible to obtain similar logarithmic bounds with high probability. Finally, for the i.i.d. model, we provide algorithms with $\tilde{\mathcal{O}}(\sqrt{T})$ stochastic regret bound, both in expectation and with high probability. Experimental results demonstrate that our algorithms outperform the previous techniques in the aforementioned three settings.


翻译:在本文中, 我们考虑了一个在线优化问题, 超过$T 圆圈 。 在这样的假设下, 每个步骤 $[T], 算法从固定的 convex 和压缩域选择一个动作 $x_ t$, 设置为$\ mathcal{K} 美元。 一个工具函数 $f_ t (cdot), 然后算法得到 $f_ t (x_ t) 的支付 。 这个问题在以下假设下已经研究 : 公共事业是对抗性地选择的 单调 DR- subdal 函数和 $\ mathal{O} (sqqrt{t{t} 从固定的 固定域域域中选择一个动作 $xxx_ t$_ axxx=modal_ a modral_ demodal_ tamodral_ a model.

0
下载
关闭预览

相关内容

专知会员服务
16+阅读 · 2021年5月21日
专知会员服务
26+阅读 · 2021年4月2日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
112+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
已删除
将门创投
4+阅读 · 2019年6月5日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
4+阅读 · 2021年7月1日
VIP会员
最新内容
美国当前高超音速导弹发展概述
专知会员服务
0+阅读 · 44分钟前
《高超音速武器:一项再度兴起的技术》120页slides
无人机蜂群建模与仿真方法
专知会员服务
1+阅读 · 今天14:08
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 今天13:42
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 今天13:46
全球高超音速武器最新发展趋势
专知会员服务
1+阅读 · 今天13:17
相关资讯
已删除
将门创投
4+阅读 · 2019年6月5日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员