Realistic Market Impact Modeling for Reinforcement Learning Trading Environments - 专知论文

会员服务 ·

0

算法 · SAC · 超参数 · 强化学习 · 投资 ·

Realistic Market Impact Modeling for Reinforcement Learning Trading Environments

翻译：面向强化学习交易环境的真实市场冲击建模

Lucas Riera Abbade,Anna Helena Reali Costa

Reinforcement learning (RL) has shown promise for trading, yet most open-source backtesting environments assume negligible or fixed transaction costs, causing agents to learn trading behaviors that fail under realistic execution. We introduce three Gymnasium-compatible trading environments -- MACE (Market-Adjusted Cost Execution) stock trading, margin trading, and portfolio optimization -- that integrate nonlinear market impact models grounded in the Almgren-Chriss framework and the empirically validated square-root impact law. Each environment provides pluggable cost models, permanent impact tracking with exponential decay, and comprehensive trade-level logging. We evaluate five DRL algorithms (A2C, PPO, DDPG, SAC, TD3) on the NASDAQ-100, comparing a fixed 10 bps baseline against the AC model with Optuna-tuned hyperparameters. Our results show that (i) the cost model materially changes both absolute performance and the relative ranking of algorithms across all three environments; (ii) the AC model produces dramatically different trading behavior, e.g., daily costs dropping from $200k to $8k with turnover falling from 19% to 1%; (iii) hyperparameter optimization is essential for constraining pathological trading, with costs dropping up to 82%; and (iv) algorithm-cost model interactions are strongly environment-specific, e.g., DDPG's OOS Sharpe jumps from -2.1 to 0.3 under AC in margin trading while SAC's drops from -0.5 to -1.2. We release the full suite as an open-source extension to FinRL-Meta.

翻译：强化学习（RL）在交易领域已展现出潜力，但大多数开源回测环境假设交易成本可忽略不计或为固定值，导致智能体在现实执行条件下学习的交易行为失败。我们引入了三个与Gymnasium兼容的交易环境——MACE（市场调整成本执行）股票交易、保证金交易和投资组合优化——这些环境整合了基于Almgren-Chriss框架及经验验证的平方根冲击定律的非线性市场冲击模型。每个环境均提供可插拔成本模型、带有指数衰减的永久冲击跟踪以及全面的交易级日志记录。我们在NASDAQ-100上评估了五种DRL算法（A2C、PPO、DDPG、SAC、TD3），将固定10个基点的基准与经Optuna调优超参数的AC模型进行了对比。结果表明：（i）成本模型在三个环境中均显著改变了算法的绝对表现及相对排名；（ii）AC模型产生了截然不同的交易行为，例如日成本从20万美元降至8000美元，换手率从19%下降至1%；（iii）超参数优化对约束病态交易至关重要，成本降幅可达82%；（iv）算法与成本模型的交互作用高度依赖于具体环境，例如在保证金交易中，DDPG的样本外夏普比率在AC模型下从-2.1跃升至0.3，而SAC则从-0.5降至-1.2。我们将整套工具作为FinRL-Meta的开源扩展发布。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

现实世界中的统计强化学习：挑战与未来方向综述

现实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

19+阅读 · 1月30日

真实世界中的统计强化学习：挑战与未来方向综述

真实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

12+阅读 · 1月23日

面向视觉的强化学习综述

面向视觉的强化学习综述

专知会员服务

21+阅读 · 2025年8月12日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

38+阅读 · 2025年1月13日

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

专知会员服务

42+阅读 · 2024年3月3日

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

专知会员服务

93+阅读 · 2024年1月7日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

爱丁堡大学 | 量化算法交易中的深度强化学习：综述论文

专知会员服务

39+阅读 · 2021年7月7日

【重磅推荐】量化金融自动交易的深度强化学习库。哥大开源“FinRL”:

【重磅推荐】量化金融自动交易的深度强化学习库。哥大开源“FinRL”:

专知会员服务

73+阅读 · 2021年3月27日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

量化金融强化学习论文集合

量化金融强化学习论文集合

专知

14+阅读 · 2019年12月18日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

产业智能官

18+阅读 · 2019年1月1日

基于强化学习的量化交易框架

基于强化学习的量化交易框架

机器学习研究会

30+阅读 · 2018年2月22日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于反射理论的信息驱动金融市场模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向城市交通通道仿真的交通流建模与组织优化

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

金融大数据随机建模中若干非马氏问题及其应用的研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

EnvRL: Learn from Environment Dynamics in Agentic Reinforcement Learning

Arxiv

0+阅读 · 6月16日

Ensemble RL through Classifier Models: Enhancing Risk-Return Trade-offs in Trading Strategies

Arxiv

0+阅读 · 6月16日

Efficient Reinforcement Learning by Guiding World Models with Non-Curated Data

Arxiv

0+阅读 · 6月15日

Evolutionary Bilevel Reward Shaping for Generalization in Reinforcement Learning

Arxiv

0+阅读 · 6月15日

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Arxiv

0+阅读 · 6月12日

RLFTSim: Realistic and Controllable Multi-Agent Traffic Simulation via Reinforcement Learning Fine-Tuning

Arxiv

0+阅读 · 5月18日

Deep Reinforcement Learning Framework for Diversified Portfolio Management Across Global Equity Markets

Arxiv

0+阅读 · 5月17日

An Introduction to Deep Reinforcement and Imitation Learning

Arxiv

0+阅读 · 5月15日

Combining Trained Models in Reinforcement Learning

Arxiv

0+阅读 · 5月4日

A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges

Arxiv

28+阅读 · 2022年11月15日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

4+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

现实世界中的统计强化学习：挑战与未来方向综述

现实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

19+阅读 · 1月30日

真实世界中的统计强化学习：挑战与未来方向综述

真实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

12+阅读 · 1月23日

面向视觉的强化学习综述

面向视觉的强化学习综述

专知会员服务

21+阅读 · 2025年8月12日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

38+阅读 · 2025年1月13日

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

专知会员服务

42+阅读 · 2024年3月3日

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

专知会员服务

93+阅读 · 2024年1月7日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

爱丁堡大学 | 量化算法交易中的深度强化学习：综述论文

专知会员服务

39+阅读 · 2021年7月7日

【重磅推荐】量化金融自动交易的深度强化学习库。哥大开源“FinRL”:

【重磅推荐】量化金融自动交易的深度强化学习库。哥大开源“FinRL”:

专知会员服务

73+阅读 · 2021年3月27日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

量化金融强化学习论文集合

量化金融强化学习论文集合

专知

14+阅读 · 2019年12月18日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

产业智能官

18+阅读 · 2019年1月1日

基于强化学习的量化交易框架

基于强化学习的量化交易框架

机器学习研究会

30+阅读 · 2018年2月22日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

EnvRL: Learn from Environment Dynamics in Agentic Reinforcement Learning

Arxiv

0+阅读 · 6月16日

Ensemble RL through Classifier Models: Enhancing Risk-Return Trade-offs in Trading Strategies

Arxiv

0+阅读 · 6月16日

Efficient Reinforcement Learning by Guiding World Models with Non-Curated Data

Arxiv

0+阅读 · 6月15日

Evolutionary Bilevel Reward Shaping for Generalization in Reinforcement Learning

Arxiv

0+阅读 · 6月15日

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Arxiv

0+阅读 · 6月12日

RLFTSim: Realistic and Controllable Multi-Agent Traffic Simulation via Reinforcement Learning Fine-Tuning

Arxiv

0+阅读 · 5月18日

Deep Reinforcement Learning Framework for Diversified Portfolio Management Across Global Equity Markets

Arxiv

0+阅读 · 5月17日

An Introduction to Deep Reinforcement and Imitation Learning

Arxiv

0+阅读 · 5月15日

Combining Trained Models in Reinforcement Learning

Arxiv

0+阅读 · 5月4日

A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges

Arxiv

28+阅读 · 2022年11月15日

相关基金

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于反射理论的信息驱动金融市场模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向城市交通通道仿真的交通流建模与组织优化

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

金融大数据随机建模中若干非马氏问题及其应用的研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员