Thompson Sampling-Based Learning and Control for Unknown Dynamic Systems - 专知论文

会员服务 ·

0

系统 · 设计 · 自适应系统 · 控制器 · 参数化 ·

Thompson Sampling-Based Learning and Control for Unknown Dynamic Systems

翻译：基于汤普森采样的未知动态系统学习与控制

Kaikai Zheng,Dawei Shi,Yang Shi,Long Wang

Thompson sampling (TS) is a Bayesian randomized exploration strategy that samples options (e.g., system parameters or control laws) from the current posterior and then applies the selected option that is optimal for a task, thereby balancing exploration and exploitation; this makes TS effective for active learning-based controller design. However, TS relies on finite parametric representations, which limits its applicability to more general spaces, which are more commonly encountered in control system design. To address this issue, this work proposes a parameterization method for control law learning using reproducing kernel Hilbert spaces and designs a data-driven active learning control approach. Specifically, the proposed method treats the control law as an element in a function space, allowing the design of control laws without imposing restrictions on the system structure or the form of the controller. A TS framework is proposed in this work to reduce control costs through online exploration and exploitation, and the convergence guarantees are further provided for the learning process. Theoretical analysis shows that the proposed method learns the relationship between control laws and closed-loop performance metrics at an exponential rate, and the upper bound of control regret is also derived. Furthermore, the closed-loop stability of the proposed learning framework is analyzed. Numerical experiments on controlling unknown nonlinear systems validate the effectiveness of the proposed method.

翻译：汤普森采样（TS）是一种贝叶斯随机探索策略，它从当前后验分布中采样选项（例如系统参数或控制律），然后应用对任务最优的选定选项，从而平衡探索与利用；这使得TS对于基于主动学习的控制器设计十分有效。然而，TS依赖于有限的参数化表示，这限制了其在更一般空间（在控制系统设计中更为常见）中的适用性。为解决此问题，本文提出了一种利用再生核希尔伯特空间的控制律学习参数化方法，并设计了一种数据驱动的主动学习控制方法。具体而言，所提方法将控制律视为函数空间中的一个元素，从而允许在不强加系统结构或控制器形式限制的情况下设计控制律。本文提出了一个TS框架，通过在线探索与利用来降低控制成本，并进一步为学习过程提供了收敛性保证。理论分析表明，所提方法以指数速率学习控制律与闭环性能指标之间的关系，并推导了控制遗憾的上界。此外，本文分析了所提学习框架的闭环稳定性。在控制未知非线性系统上的数值实验验证了所提方法的有效性。

0

相关内容

什么可控学习？人大最新《可控学习》综述，信息检索中的方法和应用

什么可控学习？人大最新《可控学习》综述，信息检索中的方法和应用

专知会员服务

18+阅读 · 2024年7月9日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

专知会员服务

37+阅读 · 2022年6月20日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

67+阅读 · 2020年8月22日

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling

专知会员服务

63+阅读 · 2020年5月23日

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

专知会员服务

30+阅读 · 2020年4月22日

【CVPR2020-国科大】状态标签对抗主动学习，Adversarial Active Learning

【CVPR2020-国科大】状态标签对抗主动学习，Adversarial Active Learning

专知会员服务

48+阅读 · 2020年4月13日

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

专知会员服务

41+阅读 · 2019年12月27日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知

67+阅读 · 2020年2月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

IBM-小样本学习（Few-shot Learning）State of the art 方法及论文讲解

IBM-小样本学习（Few-shot Learning）State of the art 方法及论文讲解

专知

105+阅读 · 2019年4月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

机器学习研究会

21+阅读 · 2018年1月21日

基于动态反馈的时滞非线性系统控制理论研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于统计信息集的非高斯系统多目标优化控制及性能评估策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于调度采样的网络化系统分布式控制策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向学术资源的TSD与TDC测度及分析研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机动态系统的风险分析及其最优控制问题

国家自然科学基金

1+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Order Optimal Regret Bounds for Sharpe Ratio Optimization under Thompson Sampling

Arxiv

0+阅读 · 3月11日

On Regret Bounds of Thompson Sampling for Bayesian Optimization

Arxiv

0+阅读 · 3月10日

Stabilizing Thompson Sampling with Null Hypothesis Bayesian Response-Adaptive Randomization

Arxiv

0+阅读 · 3月9日

Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

Arxiv

0+阅读 · 3月9日

Accelerating Sampling-Based Control via Learned Linear Koopman Dynamics

Arxiv

0+阅读 · 3月5日

Fast Online Learning with Gaussian Prior-Driven Hierarchical Unimodal Thompson Sampling

Arxiv

0+阅读 · 2月17日

Frequentist Regret Analysis of Gaussian Process Thompson Sampling via Fractional Posteriors

Arxiv

0+阅读 · 2月16日

BFTS: Thompson Sampling with Bayesian Additive Regression Trees

Arxiv

0+阅读 · 2月8日

Optimism Stabilizes Thompson Sampling for Adaptive Inference

Arxiv

0+阅读 · 2月5日

Thompson Sampling via Fine-Tuning of LLMs

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

自适应系统

最新内容

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

专知会员服务

0+阅读 · 7月28日

博士论文 | 从算法到基础模型：强化学习的统一视角

博士论文 | 从算法到基础模型：强化学习的统一视角

专知会员服务

0+阅读 · 7月28日

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

5+阅读 · 7月28日

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

4+阅读 · 7月28日

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

4+阅读 · 7月28日

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

4+阅读 · 7月28日

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

5+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

7+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

13+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

8+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

7+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

5+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

12+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

7+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

10+阅读 · 7月26日

相关VIP内容

什么可控学习？人大最新《可控学习》综述，信息检索中的方法和应用

什么可控学习？人大最新《可控学习》综述，信息检索中的方法和应用

专知会员服务

18+阅读 · 2024年7月9日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

专知会员服务

37+阅读 · 2022年6月20日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

67+阅读 · 2020年8月22日

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling

专知会员服务

63+阅读 · 2020年5月23日

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

专知会员服务

30+阅读 · 2020年4月22日

【CVPR2020-国科大】状态标签对抗主动学习，Adversarial Active Learning

【CVPR2020-国科大】状态标签对抗主动学习，Adversarial Active Learning

专知会员服务

48+阅读 · 2020年4月13日

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

专知会员服务

41+阅读 · 2019年12月27日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

博士论文 | 从算法到基础模型：强化学习的统一视角

《异构人类团队的协作决策过程混合建模研究》

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

面向国防作战的最佳自主与蜂群无人机技术

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知

67+阅读 · 2020年2月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

IBM-小样本学习（Few-shot Learning）State of the art 方法及论文讲解

IBM-小样本学习（Few-shot Learning）State of the art 方法及论文讲解

专知

105+阅读 · 2019年4月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

机器学习研究会

21+阅读 · 2018年1月21日

相关论文

Order Optimal Regret Bounds for Sharpe Ratio Optimization under Thompson Sampling

Arxiv

0+阅读 · 3月11日

On Regret Bounds of Thompson Sampling for Bayesian Optimization

Arxiv

0+阅读 · 3月10日

Stabilizing Thompson Sampling with Null Hypothesis Bayesian Response-Adaptive Randomization

Arxiv

0+阅读 · 3月9日

Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

Arxiv

0+阅读 · 3月9日

Accelerating Sampling-Based Control via Learned Linear Koopman Dynamics

Arxiv

0+阅读 · 3月5日

Fast Online Learning with Gaussian Prior-Driven Hierarchical Unimodal Thompson Sampling

Arxiv

0+阅读 · 2月17日

Frequentist Regret Analysis of Gaussian Process Thompson Sampling via Fractional Posteriors

Arxiv

0+阅读 · 2月16日

BFTS: Thompson Sampling with Bayesian Additive Regression Trees

Arxiv

0+阅读 · 2月8日

Optimism Stabilizes Thompson Sampling for Adaptive Inference

Arxiv

0+阅读 · 2月5日

Thompson Sampling via Fine-Tuning of LLMs

Arxiv

0+阅读 · 1月30日

相关基金

基于动态反馈的时滞非线性系统控制理论研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于统计信息集的非高斯系统多目标优化控制及性能评估策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于调度采样的网络化系统分布式控制策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向学术资源的TSD与TDC测度及分析研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机动态系统的风险分析及其最优控制问题

国家自然科学基金

1+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员