Complex mechanical systems such as vehicle powertrains are inherently subject to multiple nonlinearities and uncertainties arising from parametric variations. Modeling errors are therefore unavoidable, making the transfer of control systems from simulation to real-world systems a critical challenge. Traditional robust controls have limitations in handling certain types of nonlinearities and uncertainties, requiring a more practical approach capable of comprehensively compensating for these various constraints. This study proposes a new robust control approach using the framework of deep reinforcement learning (DRL). The key strategy lies in the synergy among domain randomization-based DRL, long short-term memory (LSTM)-based actor and critic networks, and model-based control (MBC). The problem setup is modeled via the latent Markov decision process (LMDP), a set of vanilla MDPs, for a controlled system subject to uncertainties and nonlinearities. In LMDP, the dynamics of an environment simulator is randomized during training to improve the robustness of the control system to real testing environments. The randomization increases training difficulties as well as conservativeness of the resultant control system; therefore, progress is assisted by concurrent use of a model-based controller based on a physics-based system model. Compared to traditional DRL-based controls, the proposed approach is smarter in that we can achieve a high level of generalization ability with a more compact neural network architecture and a smaller amount of training data. The controller is verified via practical application to active damping for a complex powertrain system with nonlinearities and parametric variations. Comparative tests demonstrate the high robustness of the proposed approach.


翻译:车辆动力传动系统等复杂机械系统本质上受到多种非线性特性及参数变化所引发不确定性的影响。因此建模误差不可避免,使得控制系统从仿真环境迁移至实际系统成为关键挑战。传统鲁棒控制在处理特定类型的非线性和不确定性方面存在局限,需要一种能够全面补偿这些约束的更具实用性的方法。本研究提出一种基于深度强化学习框架的新型鲁棒控制方法。其核心策略在于融合基于领域随机化的深度强化学习、基于长短期记忆网络的执行器与评判器网络以及基于模型的控制方法。通过潜在马尔可夫决策过程(一组基础MDP)对受不确定性和非线性影响的受控系统进行问题建模。在LMDP框架中,环境模拟器的动力学参数在训练过程中进行随机化处理,以提升控制系统对实际测试环境的鲁棒性。随机化过程在增加训练难度的同时也会导致最终控制系统的保守性增强;因此,我们通过同步使用基于物理系统模型的模型控制器来辅助训练进程。与传统基于深度强化学习的控制方法相比,本研究所提方法具有更高智能性,能够在更紧凑的神经网络架构和更少训练数据条件下实现高水平的泛化能力。通过将控制器实际应用于具有非线性和参数变化的复杂动力传动系统主动阻尼控制,验证了其有效性。对比实验表明所提方法具有卓越的鲁棒性。

0
下载
关闭预览

相关内容

航天器非脆弱控制理论及应用研究进展
专知会员服务
8+阅读 · 2025年7月8日
大模型的能力边界与指挥控制应用
专知会员服务
82+阅读 · 2025年1月4日
基于深度强化学习的多无人车系统编队控制
专知会员服务
45+阅读 · 2024年2月23日
指挥控制系统智能化发展综述
专知会员服务
138+阅读 · 2023年11月10日
Kyoto大学Toshiyuki:快速复杂控制系统的实时优化,133页ppt
专知会员服务
26+阅读 · 2021年6月9日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
李克强:智能车辆运动控制研究综述
厚势
21+阅读 · 2017年10月17日
无人机飞行控制方法概述
无人机
12+阅读 · 2017年10月7日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
航天器非脆弱控制理论及应用研究进展
专知会员服务
8+阅读 · 2025年7月8日
大模型的能力边界与指挥控制应用
专知会员服务
82+阅读 · 2025年1月4日
基于深度强化学习的多无人车系统编队控制
专知会员服务
45+阅读 · 2024年2月23日
指挥控制系统智能化发展综述
专知会员服务
138+阅读 · 2023年11月10日
Kyoto大学Toshiyuki:快速复杂控制系统的实时优化,133页ppt
专知会员服务
26+阅读 · 2021年6月9日
相关资讯
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
李克强:智能车辆运动控制研究综述
厚势
21+阅读 · 2017年10月17日
无人机飞行控制方法概述
无人机
12+阅读 · 2017年10月7日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员