Efficient Morphology-Control Co-Design via Stackelberg Proximal Policy Optimization - 专知论文

会员服务 ·

0

设计 · 协同 · 策略优化 · 控制策略 · 耦合 ·

Efficient Morphology-Control Co-Design via Stackelberg Proximal Policy Optimization

翻译：基于Stackelberg近端策略优化的高效形态-控制协同设计

Yanning Dai,Yuhui Wang,Dylan R. Ashley,Jürgen Schmidhuber

from arxiv, presented at the Fourteenth International Conference on Learning Representations; 11 pages in main text + 3 pages of references + 23 pages of appendices, 5 figures in main text + 11 figures in appendices, 16 tables in appendices; accompanying website available at https://yanningdai.github.io/stackelberg-ppo-co-design/ ; source code available at https://github.com/YanningDai/StackelbergPPO

Morphology-control co-design concerns the coupled optimization of an agent's body structure and control policy. This problem exhibits a bi-level structure, where the control dynamically adapts to the morphology to maximize performance. Existing methods typically neglect the control's adaptation dynamics by adopting a single-level formulation that treats the control policy as fixed when optimizing morphology. This can lead to inefficient optimization, as morphology updates may be misaligned with control adaptation. In this paper, we revisit the co-design problem from a game-theoretic perspective, modeling the intrinsic coupling between morphology and control as a novel variant of a Stackelberg game. We propose Stackelberg Proximal Policy Optimization (Stackelberg PPO), which explicitly incorporates the control's adaptation dynamics into morphology optimization. By modeling this intrinsic coupling, our method aligns morphology updates with control adaptation, thereby stabilizing training and improving learning efficiency. Experiments across diverse co-design tasks demonstrate that Stackelberg PPO outperforms standard PPO in both stability and final performance, opening the way for dramatically more efficient robotics designs.

翻译：形态-控制协同设计关注智能体身体结构与控制策略的耦合优化。该问题呈现双层结构，其中控制策略会动态适应形态以最大化性能。现有方法通常采用单层公式，在优化形态时将控制策略视为固定，从而忽略了控制的适应动态。这可能导致优化效率低下，因为形态更新可能与控制适应不匹配。本文从博弈论视角重新审视协同设计问题，将形态与控制之间的内在耦合建模为Stackelberg博弈的一种新变体。我们提出了Stackelberg近端策略优化（Stackelberg PPO），该方法将控制的适应动态显式地纳入形态优化过程。通过对这种内在耦合进行建模，我们的方法使形态更新与控制适应保持一致，从而稳定训练并提高学习效率。在多种协同设计任务上的实验表明，Stackelberg PPO在稳定性和最终性能上均优于标准PPO，为显著提升机器人设计效率开辟了新途径。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

《基于人工智能的动态任务分配策略在多智能体系统中的有效控制》

《基于人工智能的动态任务分配策略在多智能体系统中的有效控制》

专知会员服务

56+阅读 · 2025年6月10日

中文版 | 集中式与分布式多智能体AI协调策略

中文版 | 集中式与分布式多智能体AI协调策略

专知会员服务

23+阅读 · 2025年5月8日

多智能体协同研究进展综述: 博弈和控制交叉视角

多智能体协同研究进展综述: 博弈和控制交叉视角

专知会员服务

53+阅读 · 2025年2月1日

无人集群协同控制策略及军事应用

无人集群协同控制策略及军事应用

专知会员服务

121+阅读 · 2023年11月13日

博士论文《应用于时空逻辑任务的领导者-追随者多智能体系统的瞬态控制》

博士论文《应用于时空逻辑任务的领导者-追随者多智能体系统的瞬态控制》

专知会员服务

44+阅读 · 2023年4月15日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知会员服务

51+阅读 · 2023年4月12日

「基于形态的具身智能研究」最新2023研究综述

「基于形态的具身智能研究」最新2023研究综述

专知会员服务

101+阅读 · 2023年4月9日

多智能体协同决策方法研究

多智能体协同决策方法研究

专知会员服务

136+阅读 · 2022年12月15日

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

专知会员服务

19+阅读 · 2022年6月16日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【伯克利马毅老师】强化学习与最优控制综述

【伯克利马毅老师】强化学习与最优控制综述

专知

20+阅读 · 2022年4月26日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

专知

22+阅读 · 2018年12月17日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

多元质量特性下兵器装备协同研制能力网络形成与动态演化机理

国家自然科学基金

2+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于凸松弛-滤子算法的切换系统全局最优控制及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

指挥控制任务共同体的机制和模型研究

国家自然科学基金

36+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

面向武器系统协同的态势感知一致性计算方法研究

国家自然科学基金

55+阅读 · 2011年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

Task-Driven Co-Design of Heterogeneous Multi-Robot Systems

Arxiv

0+阅读 · 4月23日

CubeDAgger: Interactive Imitation Learning for Dynamic Systems with Efficient yet Low-risk Interaction

Arxiv

0+阅读 · 4月22日

SynAgent: Generalizable Cooperative Humanoid Manipulation via Solo-to-Cooperative Agent Synergy

Arxiv

0+阅读 · 4月20日

Evolving the Complete Muscle: Efficient Morphology-Control Co-design for Musculoskeletal Locomotion

Arxiv

0+阅读 · 4月14日

Identifying Inductive Biases for Robot Co-Design

Arxiv

0+阅读 · 4月13日

Differentiable Environment-Trajectory Co-Optimization for Safe Multi-Agent Navigation

Arxiv

0+阅读 · 4月8日

A Co-Design Framework for High-Performance Jumping of a Five-Bar Monoped with Actuator Optimization

Arxiv

0+阅读 · 4月7日

Quantale-Enriched Co-Design: Toward a Framework for Quantitative Heterogeneous System Design

Arxiv

0+阅读 · 3月31日

RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion

Arxiv

0+阅读 · 3月11日

Latent Diffeomorphic Co-Design of End-Effectors for Deformable and Fragile Object Manipulation

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

5+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

6+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

8+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

9+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

13+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

11+阅读 · 7月18日

相关VIP内容

《基于人工智能的动态任务分配策略在多智能体系统中的有效控制》

《基于人工智能的动态任务分配策略在多智能体系统中的有效控制》

专知会员服务

56+阅读 · 2025年6月10日

中文版 | 集中式与分布式多智能体AI协调策略

中文版 | 集中式与分布式多智能体AI协调策略

专知会员服务

23+阅读 · 2025年5月8日

多智能体协同研究进展综述: 博弈和控制交叉视角

多智能体协同研究进展综述: 博弈和控制交叉视角

专知会员服务

53+阅读 · 2025年2月1日

无人集群协同控制策略及军事应用

无人集群协同控制策略及军事应用

专知会员服务

121+阅读 · 2023年11月13日

博士论文《应用于时空逻辑任务的领导者-追随者多智能体系统的瞬态控制》

博士论文《应用于时空逻辑任务的领导者-追随者多智能体系统的瞬态控制》

专知会员服务

44+阅读 · 2023年4月15日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知会员服务

51+阅读 · 2023年4月12日

「基于形态的具身智能研究」最新2023研究综述

「基于形态的具身智能研究」最新2023研究综述

专知会员服务

101+阅读 · 2023年4月9日

多智能体协同决策方法研究

多智能体协同决策方法研究

专知会员服务

136+阅读 · 2022年12月15日

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

专知会员服务

19+阅读 · 2022年6月16日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【伯克利马毅老师】强化学习与最优控制综述

【伯克利马毅老师】强化学习与最优控制综述

专知

20+阅读 · 2022年4月26日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

专知

22+阅读 · 2018年12月17日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

相关论文

Task-Driven Co-Design of Heterogeneous Multi-Robot Systems

Arxiv

0+阅读 · 4月23日

CubeDAgger: Interactive Imitation Learning for Dynamic Systems with Efficient yet Low-risk Interaction

Arxiv

0+阅读 · 4月22日

SynAgent: Generalizable Cooperative Humanoid Manipulation via Solo-to-Cooperative Agent Synergy

Arxiv

0+阅读 · 4月20日

Evolving the Complete Muscle: Efficient Morphology-Control Co-design for Musculoskeletal Locomotion

Arxiv

0+阅读 · 4月14日

Identifying Inductive Biases for Robot Co-Design

Arxiv

0+阅读 · 4月13日

Differentiable Environment-Trajectory Co-Optimization for Safe Multi-Agent Navigation

Arxiv

0+阅读 · 4月8日

A Co-Design Framework for High-Performance Jumping of a Five-Bar Monoped with Actuator Optimization

Arxiv

0+阅读 · 4月7日

Quantale-Enriched Co-Design: Toward a Framework for Quantitative Heterogeneous System Design

Arxiv

0+阅读 · 3月31日

RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion

Arxiv

0+阅读 · 3月11日

Latent Diffeomorphic Co-Design of End-Effectors for Deformable and Fragile Object Manipulation

Arxiv

0+阅读 · 2月20日

相关基金

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

多元质量特性下兵器装备协同研制能力网络形成与动态演化机理

国家自然科学基金

2+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于凸松弛-滤子算法的切换系统全局最优控制及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

指挥控制任务共同体的机制和模型研究

国家自然科学基金

36+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

面向武器系统协同的态势感知一致性计算方法研究

国家自然科学基金

55+阅读 · 2011年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员