Diverse Approaches to Optimal Execution Schedule Generation - 专知论文

会员服务 ·

0

最优 · 多样性 · 执行计划 · 制度 · 单元 ·

Diverse Approaches to Optimal Execution Schedule Generation

翻译：最优执行计划生成的多样化方法

Robert de Witt,Mikko S. Pakkanen

from arxiv, 27 pages, 15 figures, 5 tables, v2: some minor improvements

We present the first application of MAP-Elites, a quality-diversity algorithm, to trade execution. Rather than searching for a single optimal policy, MAP-Elites generates a diverse portfolio of regime-specialist strategies indexed by liquidity and volatility conditions. Individual specialists achieve 8-10% performance improvements within their behavioural niches, while other cells show degradation, suggesting opportunities for ensemble approaches that combine improved specialists with the baseline PPO policy. Results indicate that quality-diversity methods offer promise for regime-adaptive execution, though substantial computational resources per behavioural cell may be required for robust specialist development across all market conditions. To ensure experimental integrity, we develop a calibrated Gymnasium environment focused on order scheduling rather than tactical placement decisions. The simulator features a transient impact model with exponential decay and square-root volume scaling, fit to 400+ U.S. equities with $R^2>0.02$ out-of-sample. Within this environment, two Proximal Policy Optimization architectures - both MLP and CNN feature extractors - demonstrate substantial improvements over industry baselines, with the CNN variant achieving 2.13 bps arrival slippage versus 5.23 bps for VWAP on 4,900 out-of-sample orders ($21B notional). These results validate both the simulation realism and provide strong single-policy baselines for quality-diversity methods.

翻译：本文首次将质量多样性算法MAP-Elites应用于交易执行领域。与寻找单一最优策略不同，MAP-Elites生成了一组按流动性和波动率条件索引的多样化制度专家策略组合。个体专家在其行为生态位内实现了8-10%的性能提升，而其他单元则出现性能退化，这表明通过集成方法将改进后的专家与基线PPO策略相结合具有潜在价值。研究结果表明，质量多样性方法为制度自适应执行提供了可行路径，但要在所有市场条件下实现稳健的专家策略开发，每个行为单元可能需要大量计算资源。为确保实验完整性，我们开发了一个经过校准的Gymnasium环境，专注于订单调度而非战术性挂单决策。该模拟器采用具有指数衰减和平方根成交量缩放特性的瞬态冲击模型，基于400多只美国股票数据拟合，样本外$R^2>0.02$。在此环境中，两种近端策略优化架构——MLP和CNN特征提取器——均较行业基线取得显著改进，其中CNN变体在4,900笔样本外订单（名义价值210亿美元）上实现2.13个基点的到达滑点，而VWAP策略为5.23个基点。这些结果既验证了模拟环境的真实性，也为质量多样性方法提供了强有力的单策略基准。

0

相关内容

《用于军事行动中行动方案比较的多智能体系统》

《用于军事行动中行动方案比较的多智能体系统》

专知会员服务

47+阅读 · 1月18日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

29+阅读 · 2025年11月17日

《基于二元优化与图学习的多智能体行动方案自动生成》

《基于二元优化与图学习的多智能体行动方案自动生成》

专知会员服务

27+阅读 · 2025年6月26日

《概率结果下全局最优决策的高效树生成方法》最新30页报告

《概率结果下全局最优决策的高效树生成方法》最新30页报告

专知会员服务

17+阅读 · 2025年5月6日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

多智能体协同决策方法研究

多智能体协同决策方法研究

专知会员服务

134+阅读 · 2022年12月15日

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

专知会员服务

19+阅读 · 2022年6月16日

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

专知会员服务

12+阅读 · 2022年3月24日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

并行算法演进，从MapReduce到MPI

并行算法演进，从MapReduce到MPI

凡人机器学习

10+阅读 · 2017年11月5日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于排序法和分解的高维多目标演化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

复杂产品并行设计多源变更传播机理和路径优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多色集合理论的工艺规划和生产调度集成建模理论与优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

考虑共谋行为的多属性采购拍卖理论与优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于生物网络的高维多目标算法及其在分布式调度中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

Soft Quality-Diversity Optimization

Arxiv

0+阅读 · 3月4日

AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization

Arxiv

0+阅读 · 3月4日

Scalable Multi-Robot Path Planning via Quadratic Unconstrained Binary Optimization

Arxiv

0+阅读 · 2月16日

QD-MAPPER: A Quality Diversity Framework to Automatically Evaluate Multi-Agent Path Finding Algorithms in Diverse Maps

Arxiv

0+阅读 · 2月14日

Maximizing Index Diversity in Committee Elections

Arxiv

0+阅读 · 2月11日

Preference Conditioned Multi-Objective Reinforcement Learning: Decomposed, Diversity-Driven Policy Optimization

Arxiv

0+阅读 · 2月8日

Scaling Multiagent Systems with Process Rewards

Arxiv

0+阅读 · 2月4日

Learning Generative Selection for Best-of-N

Arxiv

0+阅读 · 2月2日

Quality-Diversity Optimization as Multi-Objective Optimization

Arxiv

0+阅读 · 1月31日

Scaling Multiagent Systems with Process Rewards

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

《用于军事行动中行动方案比较的多智能体系统》

《用于军事行动中行动方案比较的多智能体系统》

专知会员服务

47+阅读 · 1月18日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

29+阅读 · 2025年11月17日

《基于二元优化与图学习的多智能体行动方案自动生成》

《基于二元优化与图学习的多智能体行动方案自动生成》

专知会员服务

27+阅读 · 2025年6月26日

《概率结果下全局最优决策的高效树生成方法》最新30页报告

《概率结果下全局最优决策的高效树生成方法》最新30页报告

专知会员服务

17+阅读 · 2025年5月6日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

多智能体协同决策方法研究

多智能体协同决策方法研究

专知会员服务

134+阅读 · 2022年12月15日

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

专知会员服务

19+阅读 · 2022年6月16日

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

专知会员服务

12+阅读 · 2022年3月24日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

并行算法演进，从MapReduce到MPI

并行算法演进，从MapReduce到MPI

凡人机器学习

10+阅读 · 2017年11月5日

相关论文

Soft Quality-Diversity Optimization

Arxiv

0+阅读 · 3月4日

AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization

Arxiv

0+阅读 · 3月4日

Scalable Multi-Robot Path Planning via Quadratic Unconstrained Binary Optimization

Arxiv

0+阅读 · 2月16日

QD-MAPPER: A Quality Diversity Framework to Automatically Evaluate Multi-Agent Path Finding Algorithms in Diverse Maps

Arxiv

0+阅读 · 2月14日

Maximizing Index Diversity in Committee Elections

Arxiv

0+阅读 · 2月11日

Preference Conditioned Multi-Objective Reinforcement Learning: Decomposed, Diversity-Driven Policy Optimization

Arxiv

0+阅读 · 2月8日

Scaling Multiagent Systems with Process Rewards

Arxiv

0+阅读 · 2月4日

Learning Generative Selection for Best-of-N

Arxiv

0+阅读 · 2月2日

Quality-Diversity Optimization as Multi-Objective Optimization

Arxiv

0+阅读 · 1月31日

Scaling Multiagent Systems with Process Rewards

Arxiv

0+阅读 · 1月30日

相关基金

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于排序法和分解的高维多目标演化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

复杂产品并行设计多源变更传播机理和路径优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多色集合理论的工艺规划和生产调度集成建模理论与优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

考虑共谋行为的多属性采购拍卖理论与优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于生物网络的高维多目标算法及其在分布式调度中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员