Safety-critical cyber-physical systems require control strategies whose worst-case performance is robust against adversarial disturbances and modeling uncertainties. In this paper, we present a framework for approximate control and learning in partially observed systems to minimize the worst-case discounted cost over an infinite time-horizon. We model disturbances to the system as finite-valued uncertain variables with unknown probability distributions. For problems with known system dynamics, we construct a dynamic programming (DP) decomposition to compute the optimal control strategy. Our first contribution is to define information states that improve the computational tractability of this DP without loss of optimality. Then, we describe a simplification for a class of problems where the incurred cost is observable at each time-instance. Our second contribution is a definition of approximate information states that can be constructed or learned directly from observed data for problems with observable costs. We derive bounds on the performance loss of the resulting approximate control strategy.


翻译:安全关键的信息物理系统需要控制策略在面对对抗性干扰和模型不确定性时保持最坏情况性能的鲁棒性。本文提出一种用于部分可观测系统的近似控制与学习框架,旨在最小化无限时域上的最坏情况折扣代价。我们将系统干扰建模为具有未知概率分布的有限值不确定变量。对于已知系统动力学的问题,我们构建了动态规划分解以计算最优控制策略。首要贡献在于定义了信息状态,该状态能在不损失最优性的前提下提升动态规划的计算可处理性。随后,针对一类可观测到每时刻即时代价的问题,我们描述了简化方法。第二项贡献是定义了可从观测数据中直接构建或学习的近似信息状态,适用于代价可观测的问题。我们推导了由此产生的近似控制策略性能损失的理论界。

0
下载
关闭预览

相关内容

干货书!基于单调算子的大规模凸优化,348页pdf
专知会员服务
50+阅读 · 2022年7月24日
专知会员服务
52+阅读 · 2020年12月14日
专知会员服务
55+阅读 · 2020年9月7日
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月17日
Arxiv
20+阅读 · 2022年10月10日
Arxiv
24+阅读 · 2022年2月4日
VIP会员
最新内容
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
1+阅读 · 6月6日
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
4+阅读 · 6月6日
ICML 2026 | 演化选择的因果建模
专知会员服务
5+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
5+阅读 · 6月5日
人工智能重塑威慑:算法优势的兴起
专知会员服务
7+阅读 · 6月5日
AgentOps综述:智能体系统运维框架
专知会员服务
16+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
13+阅读 · 6月4日
相关VIP内容
干货书!基于单调算子的大规模凸优化,348页pdf
专知会员服务
50+阅读 · 2022年7月24日
专知会员服务
52+阅读 · 2020年12月14日
专知会员服务
55+阅读 · 2020年9月7日
相关资讯
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员