Realistic Market Impact Modeling for Reinforcement Learning Trading Environments - 专知论文

会员服务 ·

0

算法 · SAC · 超参数 · 强化学习 · 失效 ·

Realistic Market Impact Modeling for Reinforcement Learning Trading Environments

翻译：面向强化学习交易环境的真实市场冲击建模

Lucas Riera Abbade,Anna Helena Reali Costa

Reinforcement learning (RL) has shown promise for trading, yet most open-source backtesting environments assume negligible or fixed transaction costs, causing agents to learn trading behaviors that fail under realistic execution. We introduce three Gymnasium-compatible trading environments -- MACE (Market-Adjusted Cost Execution) stock trading, margin trading, and portfolio optimization -- that integrate nonlinear market impact models grounded in the Almgren-Chriss framework and the empirically validated square-root impact law. Each environment provides pluggable cost models, permanent impact tracking with exponential decay, and comprehensive trade-level logging. We evaluate five DRL algorithms (A2C, PPO, DDPG, SAC, TD3) on the NASDAQ-100, comparing a fixed 10 bps baseline against the AC model with Optuna-tuned hyperparameters. Our results show that (i) the cost model materially changes both absolute performance and the relative ranking of algorithms across all three environments; (ii) the AC model produces dramatically different trading behavior, e.g., daily costs dropping from $200k to $8k with turnover falling from 19% to 1%; (iii) hyperparameter optimization is essential for constraining pathological trading, with costs dropping up to 82%; and (iv) algorithm-cost model interactions are strongly environment-specific, e.g., DDPG's OOS Sharpe jumps from -2.1 to 0.3 under AC in margin trading while SAC's drops from -0.5 to -1.2. We release the full suite as an open-source extension to FinRL-Meta.

翻译：强化学习在交易领域展现出潜力，但大多数开源回测环境假设交易成本可忽略或固定，导致智能体学习到的交易行为在真实执行中失效。我们引入三个兼容Gymnasium的交易环境——MACE（市场调整成本执行）股票交易、保证金交易和投资组合优化——这些环境集成了基于Almgren-Chriss框架和经实证验证的平方根冲击法则的非线性市场冲击模型。每个环境提供可插拔成本模型、具有指数衰减的永久冲击追踪以及全面的交易级日志记录。我们在纳斯达克100指数上评估了五种深度强化学习算法（A2C、PPO、DDPG、SAC、TD3），将固定10个基点的基线模型与经Optuna调优超参数的AC模型进行比较。结果表明：（i）成本模型显著改变了所有三个环境中算法的绝对表现和相对排名；（ii）AC模型产生截然不同的交易行为，例如每日成本从20万美元降至8000美元，换手率从19%降至1%；（iii）超参数优化对于约束病态交易至关重要，成本降幅最高达82%；（iv）算法与成本模型的交互具有强烈的环境特异性，例如在保证金交易中，DDPG的样本外夏普比率从-2.1跃升至0.3，而SAC的则从-0.5降至-1.2。我们将整套工具作为FinRL-Meta的开源扩展发布。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

《用于建模系统攻击路径的强化学习环境》

《用于建模系统攻击路径的强化学习环境》

专知会员服务

22+阅读 · 3月5日

《可解释性强化学习模型》

《可解释性强化学习模型》

专知会员服务

25+阅读 · 2月24日

现实世界中的统计强化学习：挑战与未来方向综述

现实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

19+阅读 · 1月30日

真实世界中的统计强化学习：挑战与未来方向综述

真实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

12+阅读 · 1月23日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

专知会员服务

42+阅读 · 2024年3月3日

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

专知会员服务

93+阅读 · 2024年1月7日

爱丁堡大学 | 量化算法交易中的深度强化学习：综述论文

专知会员服务

39+阅读 · 2021年7月7日

【重磅推荐】量化金融自动交易的深度强化学习库。哥大开源“FinRL”:

【重磅推荐】量化金融自动交易的深度强化学习库。哥大开源“FinRL”:

专知会员服务

73+阅读 · 2021年3月27日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

基于虚拟现实环境的深度学习模型构建

基于虚拟现实环境的深度学习模型构建

MOOC

24+阅读 · 2019年9月28日

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

产业智能官

18+阅读 · 2019年1月1日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

基于强化学习的量化交易框架

基于强化学习的量化交易框架

机器学习研究会

30+阅读 · 2018年2月22日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

临界态对生物神经网络学习、记忆以及模式识别能力的影响

国家自然科学基金

0+阅读 · 2015年12月31日

基于反射理论的信息驱动金融市场模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向城市交通通道仿真的交通流建模与组织优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Ensemble RL through Classifier Models: Enhancing Risk-Return Trade-offs in Trading Strategies

Arxiv

0+阅读 · 6月16日

BRICKS-WM: Building Reusability via Interface Composition Kinetics for Structured World Models

Arxiv

0+阅读 · 6月15日

Reinforcement Learning for Neural Model Editing

Arxiv

0+阅读 · 6月11日

WOMBET: World Model-Based Experience Transfer for Robust and Sample-efficient Reinforcement Learning

Arxiv

0+阅读 · 6月11日

Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning

Arxiv

0+阅读 · 6月3日

Ensemble RL through Classifier Models: Enhancing Risk-Return Trade-offs in Trading Strategies

Arxiv

0+阅读 · 5月20日

Deep Reinforcement Learning Framework for Diversified Portfolio Management Across Global Equity Markets

Arxiv

0+阅读 · 5月17日

An Introduction to Deep Reinforcement and Imitation Learning

Arxiv

0+阅读 · 5月15日

Simulation Distillation: Pretraining World Models in Simulation for Rapid Real-World Adaptation

Arxiv

0+阅读 · 5月12日

Combining Trained Models in Reinforcement Learning

Arxiv

0+阅读 · 5月4日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

3+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《用于建模系统攻击路径的强化学习环境》

《用于建模系统攻击路径的强化学习环境》

专知会员服务

22+阅读 · 3月5日

《可解释性强化学习模型》

《可解释性强化学习模型》

专知会员服务

25+阅读 · 2月24日

现实世界中的统计强化学习：挑战与未来方向综述

现实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

19+阅读 · 1月30日

真实世界中的统计强化学习：挑战与未来方向综述

真实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

12+阅读 · 1月23日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

专知会员服务

42+阅读 · 2024年3月3日

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

专知会员服务

93+阅读 · 2024年1月7日

爱丁堡大学 | 量化算法交易中的深度强化学习：综述论文

专知会员服务

39+阅读 · 2021年7月7日

【重磅推荐】量化金融自动交易的深度强化学习库。哥大开源“FinRL”:

【重磅推荐】量化金融自动交易的深度强化学习库。哥大开源“FinRL”:

专知会员服务

73+阅读 · 2021年3月27日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

基于虚拟现实环境的深度学习模型构建

基于虚拟现实环境的深度学习模型构建

MOOC

24+阅读 · 2019年9月28日

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

产业智能官

18+阅读 · 2019年1月1日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

基于强化学习的量化交易框架

基于强化学习的量化交易框架

机器学习研究会

30+阅读 · 2018年2月22日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

相关论文

Ensemble RL through Classifier Models: Enhancing Risk-Return Trade-offs in Trading Strategies

Arxiv

0+阅读 · 6月16日

BRICKS-WM: Building Reusability via Interface Composition Kinetics for Structured World Models

Arxiv

0+阅读 · 6月15日

Reinforcement Learning for Neural Model Editing

Arxiv

0+阅读 · 6月11日

WOMBET: World Model-Based Experience Transfer for Robust and Sample-efficient Reinforcement Learning

Arxiv

0+阅读 · 6月11日

Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning

Arxiv

0+阅读 · 6月3日

Ensemble RL through Classifier Models: Enhancing Risk-Return Trade-offs in Trading Strategies

Arxiv

0+阅读 · 5月20日

Deep Reinforcement Learning Framework for Diversified Portfolio Management Across Global Equity Markets

Arxiv

0+阅读 · 5月17日

An Introduction to Deep Reinforcement and Imitation Learning

Arxiv

0+阅读 · 5月15日

Simulation Distillation: Pretraining World Models in Simulation for Rapid Real-World Adaptation

Arxiv

0+阅读 · 5月12日

Combining Trained Models in Reinforcement Learning

Arxiv

0+阅读 · 5月4日

相关基金

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

临界态对生物神经网络学习、记忆以及模式识别能力的影响

国家自然科学基金

0+阅读 · 2015年12月31日

基于反射理论的信息驱动金融市场模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向城市交通通道仿真的交通流建模与组织优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员