This paper considers online optimal control with affine constraints on the states and actions under linear dynamics with bounded random disturbances. The system dynamics and constraints are assumed to be known and time-invariant but the convex stage cost functions change adversarially. To solve this problem, we propose Online Gradient Descent with Buffer Zones (OGD-BZ). Theoretically, we show that OGD-BZ with proper parameters can guarantee the system to satisfy all the constraints despite any admissible disturbances. Further, we investigate the policy regret of OGD-BZ, which compares OGD-BZ's performance with the performance of the optimal linear policy in hindsight. We show that OGD-BZ can achieve a policy regret upper bound that is the square root of the horizon length multiplied by some logarithmic terms of the horizon length under proper algorithm parameters.


翻译:本文考虑在线最佳控制,在线性动态下对州和行动的限制与受约束随机扰动的线性动态进行线性控制。 系统动态和限制假定为已知且时间变化性,但锥形阶段成本功能会发生对抗性变化。 为了解决这一问题,我们提议使用缓冲区在线梯层(OGD-BZ)来解决这个问题。 从理论上讲,我们表明,具有适当参数的OGD-BZ可以保证系统满足所有限制,尽管存在任何可允许的干扰。 此外,我们调查OGD-BZ的政策遗憾,它将OGD-BZ的性能与后视最佳线性政策的性能进行比较。 我们显示,OGD-BZ可以实现政策上的遗憾上限,即地平线长的平方根乘以适当算参数下的地平线长度的对数条件。

0
下载
关闭预览

相关内容

专知会员服务
28+阅读 · 2021年5月2日
基于深度学习的行人检测方法综述
专知会员服务
71+阅读 · 2021年4月14日
专知会员服务
42+阅读 · 2021年1月18日
专知会员服务
52+阅读 · 2020年12月14日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
80+阅读 · 2020年6月11日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
BAT机器学习面试1000题(771~775题)
七月在线实验室
3+阅读 · 2018年12月28日
论文笔记之Meta-Tracker(ECCV2018)
统计学习与视觉计算组
16+阅读 · 2018年8月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年9月13日
Arxiv
6+阅读 · 2021年6月24日
VIP会员
最新内容
乌军利用美国“黄蜂”无人机摧毁俄军后勤
专知会员服务
5+阅读 · 6月7日
《支持作战级人机协同智能的交互式OODA流程》
专知会员服务
12+阅读 · 6月7日
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
8+阅读 · 6月6日
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
12+阅读 · 6月6日
ICML 2026 | 演化选择的因果建模
专知会员服务
11+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
7+阅读 · 6月5日
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
BAT机器学习面试1000题(771~775题)
七月在线实验室
3+阅读 · 2018年12月28日
论文笔记之Meta-Tracker(ECCV2018)
统计学习与视觉计算组
16+阅读 · 2018年8月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员