Efficient Domain-Adaptive Policy Learning via Kernel Representation with Application to Quadrotor Control under Non-Stationary Disturbances - 专知论文

会员服务 ·

0

扰动 · 表示 · 自适应 · 域自适应 · 非平稳 ·

Efficient Domain-Adaptive Policy Learning via Kernel Representation with Application to Quadrotor Control under Non-Stationary Disturbances

翻译：基于核表示的高效领域自适应策略学习及其在非平稳扰动下四旋翼控制中的应用

Hongyu Zhou,Mingtian Tan,Vasileios Tzoumas

We present an algorithm for efficient domain-adaptive policy learning via kernel representations. Learning domain-adaptive policies is challenging since it requires an environment representation that is both sufficiently expressive to model complex sim-to-real gaps during offline training, and computationally efficient enough to support rapid online adaptation during deployment. For instance, a quadrotor may encounter time-varying, non-stationary disturbances, such as sudden gusts of wind, payload shifts, or transitions between distinct flight regimes with and without ground effects. To address these challenges, we model unknown disturbances using a differentiable kernel approximation based on random Fourier features. During the offline training phase, we randomly sample kernel coefficients and bandwidth parameters to generate a rich diversity of disturbance profiles. We then optimize the control policy via differentiable simulation with analytical gradients, a process that takes only 50 seconds of training time on an RTX 4090 GPU. During hardware deployment, the policy adapts to non-stationary environments in real time by updating both the kernel coefficients and bandwidth through online least-squares estimation. We evaluate our method on quadrotor trajectory tracking tasks across high-fidelity numerical simulations and hardware experiments using Crazyflie, subjected to various disturbances, including complex aerodynamic effects, wind, ground effects, and payload fluctuations.

翻译：我们提出了一种基于核表示的高效领域自适应策略学习算法。学习领域自适应策略具有挑战性，因为它需要一种环境表示，该表示既要具备足够的表达能力以建模离线训练期间复杂的仿真到现实差距，又要具备足够的计算效率以支持部署期间的快速在线自适应。例如，四旋翼可能会遇到时变的非平稳扰动，如突如其来的阵风、载荷变化，或是在有无地面效应的不同飞行模式间的转换。为应对这些挑战，我们利用基于随机傅里叶特征的可微核近似来建模未知扰动。在离线训练阶段，我们随机采样核系数和带宽参数，以生成丰富多样的扰动场景。随后，我们通过具有解析梯度的可微仿真来优化控制策略，该过程在RTX 4090 GPU上仅需50秒训练时间。在硬件部署阶段，策略通过在线最小二乘估计同时更新核系数和带宽，实时适应非平稳环境。我们基于Crazyflie无人机在包含复杂空气动力学效应、风扰、地面效应和载荷波动等各类扰动的高保真数值仿真与硬件实验中，对所提方法进行了四旋翼轨迹跟踪任务的评估。

0

相关内容

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

15+阅读 · 4月24日

遥感中基于深度学习的领域自适应方法：全面综述

遥感中基于深度学习的领域自适应方法：全面综述

专知会员服务

20+阅读 · 2025年10月20日

【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

专知会员服务

55+阅读 · 2023年2月3日

《强风下四轴飞行器的自适应非线性控制》美国陆军研究实验室2022最新28页技术报告

《强风下四轴飞行器的自适应非线性控制》美国陆军研究实验室2022最新28页技术报告

专知会员服务

33+阅读 · 2022年10月21日

【TPAMI2022】基于对抗性神经表示学习的异构域适应:电子商务与网络安全实验

【TPAMI2022】基于对抗性神经表示学习的异构域适应:电子商务与网络安全实验

专知会员服务

14+阅读 · 2022年6月9日

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

专知会员服务

45+阅读 · 2021年12月6日

NeurIPS2021 | Cycle Self-Training：领域自适应的循环自训练方法与理论

NeurIPS2021 | Cycle Self-Training：领域自适应的循环自训练方法与理论

专知会员服务

20+阅读 · 2021年11月13日

领域自适应研究综述

领域自适应研究综述

专知会员服务

55+阅读 · 2021年5月5日

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice

专知会员服务

32+阅读 · 2020年2月26日

【浙江大学-AAAI2020】领域自适应的对抗损失，Adversarial-Learned Loss for Domain Adaptation

【浙江大学-AAAI2020】领域自适应的对抗损失，Adversarial-Learned Loss for Domain Adaptation

专知会员服务

62+阅读 · 2020年1月11日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

综述：军事应用中使用的一些重要算法

综述：军事应用中使用的一些重要算法

专知

13+阅读 · 2022年7月3日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

55+阅读 · 2022年4月25日

【CVPR2021】面向通用领域自适应的领域共识聚类

【CVPR2021】面向通用领域自适应的领域共识聚类

专知

24+阅读 · 2021年5月6日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

【机器学习】机器学习工业领域应用

【机器学习】机器学习工业领域应用

产业智能官

11+阅读 · 2018年10月23日

迁移学习之Domain Adaptation

迁移学习之Domain Adaptation

全球人工智能

18+阅读 · 2018年4月11日

极市分享|王晋东迁移学习中的领域自适应方法

极市分享|王晋东迁移学习中的领域自适应方法

极市平台

10+阅读 · 2017年12月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

核反应动力学高效数值模拟软件集成开发与应用

国家自然科学基金

1+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

雷达系统自适应抗干扰方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Asynchronous Decentralized Federated Learning over Lossy Wireless Links via Reception- and Age-Aware Aggregation

Arxiv

0+阅读 · 6月16日

Adaptive Domain Models: Bayesian Evolution, Warm Rotation, and Principled Training for Geometric and Neuromorphic AI

Arxiv

0+阅读 · 6月16日

Communication-Efficient Neural Tangent Kernels for Heterogeneous Decentralized Federated Learning

Arxiv

0+阅读 · 6月13日

On-sky demonstration of reinforcement learning for adaptive optics control

Arxiv

0+阅读 · 6月9日

Adaptive Learning Rates with Surrogate Probability for Follow-the-Perturbed-Leader

Arxiv

0+阅读 · 6月4日

More Than Efficiency: Embedding Compression Improves Domain Adaptation in Dense Retrieval

Arxiv

0+阅读 · 6月2日

An Agent-Centric Dynamical Systems Perspective on Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月28日

Cross-Domain Energy-Guided Diffusion Generation for Off-Dynamics Reinforcement Learning

Arxiv

0+阅读 · 5月24日

Near-optimal Rank Adaptive Inference of High Dimensional Matrices

Arxiv

0+阅读 · 5月11日

A Comprehensive Survey on Source-free Domain Adaptation

Arxiv

10+阅读 · 2023年2月23日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

15+阅读 · 4月24日

遥感中基于深度学习的领域自适应方法：全面综述

遥感中基于深度学习的领域自适应方法：全面综述

专知会员服务

20+阅读 · 2025年10月20日

【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

专知会员服务

55+阅读 · 2023年2月3日

《强风下四轴飞行器的自适应非线性控制》美国陆军研究实验室2022最新28页技术报告

《强风下四轴飞行器的自适应非线性控制》美国陆军研究实验室2022最新28页技术报告

专知会员服务

33+阅读 · 2022年10月21日

【TPAMI2022】基于对抗性神经表示学习的异构域适应:电子商务与网络安全实验

【TPAMI2022】基于对抗性神经表示学习的异构域适应:电子商务与网络安全实验

专知会员服务

14+阅读 · 2022年6月9日

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

专知会员服务

45+阅读 · 2021年12月6日

NeurIPS2021 | Cycle Self-Training：领域自适应的循环自训练方法与理论

NeurIPS2021 | Cycle Self-Training：领域自适应的循环自训练方法与理论

专知会员服务

20+阅读 · 2021年11月13日

领域自适应研究综述

领域自适应研究综述

专知会员服务

55+阅读 · 2021年5月5日

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice

专知会员服务

32+阅读 · 2020年2月26日

【浙江大学-AAAI2020】领域自适应的对抗损失，Adversarial-Learned Loss for Domain Adaptation

【浙江大学-AAAI2020】领域自适应的对抗损失，Adversarial-Learned Loss for Domain Adaptation

专知会员服务

62+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

综述：军事应用中使用的一些重要算法

综述：军事应用中使用的一些重要算法

专知

13+阅读 · 2022年7月3日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

55+阅读 · 2022年4月25日

【CVPR2021】面向通用领域自适应的领域共识聚类

【CVPR2021】面向通用领域自适应的领域共识聚类

专知

24+阅读 · 2021年5月6日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

【机器学习】机器学习工业领域应用

【机器学习】机器学习工业领域应用

产业智能官

11+阅读 · 2018年10月23日

迁移学习之Domain Adaptation

迁移学习之Domain Adaptation

全球人工智能

18+阅读 · 2018年4月11日

极市分享|王晋东迁移学习中的领域自适应方法

极市分享|王晋东迁移学习中的领域自适应方法

极市平台

10+阅读 · 2017年12月11日

相关论文

Asynchronous Decentralized Federated Learning over Lossy Wireless Links via Reception- and Age-Aware Aggregation

Arxiv

0+阅读 · 6月16日

Adaptive Domain Models: Bayesian Evolution, Warm Rotation, and Principled Training for Geometric and Neuromorphic AI

Arxiv

0+阅读 · 6月16日

Communication-Efficient Neural Tangent Kernels for Heterogeneous Decentralized Federated Learning

Arxiv

0+阅读 · 6月13日

On-sky demonstration of reinforcement learning for adaptive optics control

Arxiv

0+阅读 · 6月9日

Adaptive Learning Rates with Surrogate Probability for Follow-the-Perturbed-Leader

Arxiv

0+阅读 · 6月4日

More Than Efficiency: Embedding Compression Improves Domain Adaptation in Dense Retrieval

Arxiv

0+阅读 · 6月2日

An Agent-Centric Dynamical Systems Perspective on Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月28日

Cross-Domain Energy-Guided Diffusion Generation for Off-Dynamics Reinforcement Learning

Arxiv

0+阅读 · 5月24日

Near-optimal Rank Adaptive Inference of High Dimensional Matrices

Arxiv

0+阅读 · 5月11日

A Comprehensive Survey on Source-free Domain Adaptation

Arxiv

10+阅读 · 2023年2月23日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

核反应动力学高效数值模拟软件集成开发与应用

国家自然科学基金

1+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

雷达系统自适应抗干扰方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员