Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning - 专知论文

会员服务 ·

0

算法 · 多参数 · 数控 · 进化算法 · 控制策略 ·

Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning

翻译：发现进化算法中可解释多参数控制策略：基于深度强化学习

Tai Nguyen,Phong Le,Carola Doerr,Nguyen Dang

from arxiv, arXiv admin note: text overlap with arXiv:2505.12982

While deep Reinforcement Learning (deep-RL) has been increasingly applied to parameter control in evolutionary algorithms, rigorous theoretical analysis of parameter control remains largely restricted to single-parameter settings, owing to the difficulty of deriving effective, interpretable multi-parameter policies amenable to formal study. We demonstrate how deep-RL can be leveraged to overcome this barrier, using the (1+($λ$,$λ$))-genetic algorithm optimizing OneMax, one of the few problems where a super-constant speedup of dynamic control has been formally proven, as a representative case study. We first show that standard approaches struggle to converge in this multi-parameter setting, and introduce algorithm-agnostic enhancements targeting action-space decomposition, reward shifting, and long-horizon discounting. With these in place, we compare common deep-RL methods and find that Double Deep Q-Networks uniquely avoid the policy collapse observed in Proximal Policy Optimization, yielding trajectories suitable for downstream analysis. Crucially, we move beyond the ``black-box'' nature of neural networks by distilling the learned behaviors into a transparent, symbolic control policy. This resulting policy does not only offer interpretability for future theoretical analysis but also yields exceptional performance, consistently outperforming existing baselines across a wide range of problem sizes.

翻译：尽管深度强化学习（deep-RL）已逐步应用于进化算法的参数控制问题，但由于推导适用于形式化研究且可解释的有效多参数策略存在困难，参数控制的严格理论分析目前仍主要局限于单参数场景。本文以(1+($λ$,$λ$))-遗传算法优化OneMax问题为典型案例——该问题是为数不多经理论证明可通过动态控制实现超常数加速的优化问题之一——展示如何利用深度强化学习突破这一瓶颈。我们首先发现标准方法在多参数场景中难以收敛，进而引入面向动作空间分解、奖励平移与长时域折扣的算法无关增强策略。在此基础上，通过对比主流深度强化学习方法，发现Double Deep Q-Networks能够唯一避免Proximal Policy Optimization中出现的策略崩溃现象，从而生成适用于后续分析的轨迹。关键突破在于，我们通过将习得行为蒸馏为透明的符号控制策略，超越了神经网络的“黑箱”特性。所得策略不仅可为未来理论分析提供可解释性，更展现出卓越性能，在广泛的问题规模范围内持续超越现有基准方法。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

《单智能体与多智能体深度强化学习方法的优化研究》219页

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

53+阅读 · 2025年4月5日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

38+阅读 · 2025年1月13日

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

专知会员服务

66+阅读 · 2023年1月26日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

59+阅读 · 2022年12月10日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

什么是进化深度学习？东北大学等最新《进化深度学习:原理、算法、应用》综述，34页pdf阐述EDL概念以及技术体系

什么是进化深度学习？东北大学等最新《进化深度学习:原理、算法、应用》综述，34页pdf阐述EDL概念以及技术体系

专知会员服务

79+阅读 · 2022年9月1日

结合进化算法的深度强化学习方法研究综述

结合进化算法的深度强化学习方法研究综述

专知会员服务

81+阅读 · 2022年7月16日

基于神经进化的深度学习模型研究综述

专知会员服务

42+阅读 · 2021年3月3日

多Agent深度强化学习综述(中文版)，21页pdf

专知会员服务

118+阅读 · 2021年1月1日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

214+阅读 · 2019年8月30日

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

专知

17+阅读 · 2022年11月18日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于排序法和分解的高维多目标演化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

针对多目标优化的人工蜂群算法改进及在水文模型参数优化中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于生物网络的高维多目标算法及其在分布式调度中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Evolutionary Bilevel Reward Shaping for Generalization in Reinforcement Learning

Arxiv

0+阅读 · 6月15日

Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

Arxiv

0+阅读 · 6月12日

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

Arxiv

1+阅读 · 6月4日

Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning

Arxiv

0+阅读 · 6月3日

Assistax: A Multi-Agent Hardware-Accelerated Reinforcement Learning Benchmark for Assistive Robotics

Arxiv

0+阅读 · 6月2日

Bridging Evolutionary Algorithms and Reinforcement Learning: A Comprehensive Survey on Hybrid Algorithms

Arxiv

0+阅读 · 5月24日

Parameter-Efficient Neuroevolution for Diverse LLM Generation: Quality-Diversity Optimization via Prompt Embedding Evolution

Arxiv

0+阅读 · 5月10日

EvoPref: Multi-Objective Evolutionary Optimization Discovers Diverse LLM Alignments Beyond Gradient Descent

Arxiv

0+阅读 · 5月10日

Exact and Evolutionary Algorithms for Sequential Multi-Objective Transmission Topology Planning

Arxiv

0+阅读 · 5月5日

Evolutionary fine tuning of quantized convolution-based deep learning models

Arxiv

0+阅读 · 4月19日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

《单智能体与多智能体深度强化学习方法的优化研究》219页

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

53+阅读 · 2025年4月5日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

38+阅读 · 2025年1月13日

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

专知会员服务

66+阅读 · 2023年1月26日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

59+阅读 · 2022年12月10日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

什么是进化深度学习？东北大学等最新《进化深度学习:原理、算法、应用》综述，34页pdf阐述EDL概念以及技术体系

什么是进化深度学习？东北大学等最新《进化深度学习:原理、算法、应用》综述，34页pdf阐述EDL概念以及技术体系

专知会员服务

79+阅读 · 2022年9月1日

结合进化算法的深度强化学习方法研究综述

结合进化算法的深度强化学习方法研究综述

专知会员服务

81+阅读 · 2022年7月16日

基于神经进化的深度学习模型研究综述

专知会员服务

42+阅读 · 2021年3月3日

多Agent深度强化学习综述(中文版)，21页pdf

专知会员服务

118+阅读 · 2021年1月1日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

214+阅读 · 2019年8月30日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

专知

17+阅读 · 2022年11月18日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

Evolutionary Bilevel Reward Shaping for Generalization in Reinforcement Learning

Arxiv

0+阅读 · 6月15日

Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

Arxiv

0+阅读 · 6月12日

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

Arxiv

1+阅读 · 6月4日

Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning

Arxiv

0+阅读 · 6月3日

Assistax: A Multi-Agent Hardware-Accelerated Reinforcement Learning Benchmark for Assistive Robotics

Arxiv

0+阅读 · 6月2日

Bridging Evolutionary Algorithms and Reinforcement Learning: A Comprehensive Survey on Hybrid Algorithms

Arxiv

0+阅读 · 5月24日

Parameter-Efficient Neuroevolution for Diverse LLM Generation: Quality-Diversity Optimization via Prompt Embedding Evolution

Arxiv

0+阅读 · 5月10日

EvoPref: Multi-Objective Evolutionary Optimization Discovers Diverse LLM Alignments Beyond Gradient Descent

Arxiv

0+阅读 · 5月10日

Exact and Evolutionary Algorithms for Sequential Multi-Objective Transmission Topology Planning

Arxiv

0+阅读 · 5月5日

Evolutionary fine tuning of quantized convolution-based deep learning models

Arxiv

0+阅读 · 4月19日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于排序法和分解的高维多目标演化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

针对多目标优化的人工蜂群算法改进及在水文模型参数优化中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于生物网络的高维多目标算法及其在分布式调度中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员