This paper considers online convex optimization with long term constraints, where constraints can be violated in intermediate rounds, but need to be satisfied in the long run. The cumulative constraint violation is used as the metric to measure constraint violations, which excludes the situation that strictly feasible constraints can compensate the effects of violated constraints. A novel algorithm is first proposed and it achieves an $\mathcal{O}(T^{\max\{c,1-c\}})$ bound for static regret and an $\mathcal{O}(T^{(1-c)/2})$ bound for cumulative constraint violation, where $c\in(0,1)$ is a user-defined trade-off parameter, and thus has improved performance compared with existing results. Both static regret and cumulative constraint violation bounds are reduced to $\mathcal{O}(\log(T))$ when the loss functions are strongly convex, which also improves existing results. %In order to bound the regret with respect to any comparator sequence, In order to achieve the optimal regret with respect to any comparator sequence, another algorithm is then proposed and it achieves the optimal $\mathcal{O}(\sqrt{T(1+P_T)})$ regret and an $\mathcal{O}(\sqrt{T})$ cumulative constraint violation, where $P_T$ is the path-length of the comparator sequence. Finally, numerical simulations are provided to illustrate the effectiveness of the theoretical results.


翻译:本文以长期限制来考虑在线的 convex优化, 中间回合中可能会违反限制, 但需要长期满足。 累积限制违约被作为衡量限制违约情况的标准, 它排除了严格可行的限制可以补偿被违反限制影响的情况。 首次提出了一个新算法, 它实现了$\ mathcal{O}( T ⁇ max ⁇ c, 1- c ⁇ ) 美元, 用于静态遗憾和$\ mathcal{O} (T ⁇ - P) (1- c)/2} 美元, 用于累计限制违约, 其中$\ in( 0, 1美元) 是用户定义的对交易的参数, 因而比现有结果提高了业绩。 当损失功能强烈的 convex 时, 将静态遗憾和累积限制违约情况都减为$\ mathcal{ (\ log) 美元, 这也会改善现有结果。% 为了约束对任何比较序列的遗憾, 为了实现任何参照序列中的最佳选择, 另一种算法是 $\ true\ cal_ rence_ ral} ral_ cal_ a rock.

0
下载
关闭预览

相关内容

专知会员服务
26+阅读 · 2021年4月2日
多标签学习的新趋势(2020 Survey)
专知会员服务
44+阅读 · 2020年12月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
112+阅读 · 2020年5月15日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
2+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
1+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
7+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
Top
微信扫码咨询专知VIP会员