We present an algorithm for efficient domain-adaptive policy learning via kernel representations. Learning domain-adaptive policies is challenging since it requires an environment representation that is both sufficiently expressive to model complex sim-to-real gaps during offline training, and computationally efficient enough to support rapid online adaptation during deployment. For instance, a quadrotor may encounter time-varying, non-stationary disturbances, such as sudden gusts of wind, payload shifts, or transitions between distinct flight regimes with and without ground effects. To address these challenges, we model unknown disturbances using a differentiable kernel approximation based on random Fourier features. During the offline training phase, we randomly sample kernel coefficients and bandwidth parameters to generate a rich diversity of disturbance profiles. We then optimize the control policy via differentiable simulation with analytical gradients, a process that takes only 50 seconds of training time on an RTX 4090 GPU. During hardware deployment, the policy adapts to non-stationary environments in real time by updating both the kernel coefficients and bandwidth through online least-squares estimation. We evaluate our method on quadrotor trajectory tracking tasks across high-fidelity numerical simulations and hardware experiments using Crazyflie, subjected to various disturbances, including complex aerodynamic effects, wind, ground effects, and payload fluctuations.


翻译:我们提出了一种基于核表示的高效领域自适应策略学习算法。学习领域自适应策略具有挑战性,因为它需要一种环境表示,该表示既要具备足够的表达能力以建模离线训练期间复杂的仿真到现实差距,又要具备足够的计算效率以支持部署期间的快速在线自适应。例如,四旋翼可能会遇到时变的非平稳扰动,如突如其来的阵风、载荷变化,或是在有无地面效应的不同飞行模式间的转换。为应对这些挑战,我们利用基于随机傅里叶特征的可微核近似来建模未知扰动。在离线训练阶段,我们随机采样核系数和带宽参数,以生成丰富多样的扰动场景。随后,我们通过具有解析梯度的可微仿真来优化控制策略,该过程在RTX 4090 GPU上仅需50秒训练时间。在硬件部署阶段,策略通过在线最小二乘估计同时更新核系数和带宽,实时适应非平稳环境。我们基于Crazyflie无人机在包含复杂空气动力学效应、风扰、地面效应和载荷波动等各类扰动的高保真数值仿真与硬件实验中,对所提方法进行了四旋翼轨迹跟踪任务的评估。

0
下载
关闭预览

相关内容

遥感中基于深度学习的领域自适应方法:全面综述
专知会员服务
19+阅读 · 2025年10月20日
【AAAI2022】领域自适应的主动学习:一种基于能量的方法
专知会员服务
45+阅读 · 2021年12月6日
领域自适应研究综述
专知会员服务
55+阅读 · 2021年5月5日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
【机器学习】机器学习工业领域应用
产业智能官
11+阅读 · 2018年10月23日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
极市分享|王晋东 迁移学习中的领域自适应方法
极市平台
10+阅读 · 2017年12月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
【机器学习】机器学习工业领域应用
产业智能官
11+阅读 · 2018年10月23日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
极市分享|王晋东 迁移学习中的领域自适应方法
极市平台
10+阅读 · 2017年12月11日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员