Reinforcement learning (RL) has shown promise for trading, yet most open-source backtesting environments assume negligible or fixed transaction costs, causing agents to learn trading behaviors that fail under realistic execution. We introduce three Gymnasium-compatible trading environments -- MACE (Market-Adjusted Cost Execution) stock trading, margin trading, and portfolio optimization -- that integrate nonlinear market impact models grounded in the Almgren-Chriss framework and the empirically validated square-root impact law. Each environment provides pluggable cost models, permanent impact tracking with exponential decay, and comprehensive trade-level logging. We evaluate five DRL algorithms (A2C, PPO, DDPG, SAC, TD3) on the NASDAQ-100, comparing a fixed 10 bps baseline against the AC model with Optuna-tuned hyperparameters. Our results show that (i) the cost model materially changes both absolute performance and the relative ranking of algorithms across all three environments; (ii) the AC model produces dramatically different trading behavior, e.g., daily costs dropping from $200k to $8k with turnover falling from 19% to 1%; (iii) hyperparameter optimization is essential for constraining pathological trading, with costs dropping up to 82%; and (iv) algorithm-cost model interactions are strongly environment-specific, e.g., DDPG's OOS Sharpe jumps from -2.1 to 0.3 under AC in margin trading while SAC's drops from -0.5 to -1.2. We release the full suite as an open-source extension to FinRL-Meta.


翻译:强化学习(RL)在交易领域已展现出潜力,但大多数开源回测环境假设交易成本可忽略不计或为固定值,导致智能体在现实执行条件下学习的交易行为失败。我们引入了三个与Gymnasium兼容的交易环境——MACE(市场调整成本执行)股票交易、保证金交易和投资组合优化——这些环境整合了基于Almgren-Chriss框架及经验验证的平方根冲击定律的非线性市场冲击模型。每个环境均提供可插拔成本模型、带有指数衰减的永久冲击跟踪以及全面的交易级日志记录。我们在NASDAQ-100上评估了五种DRL算法(A2C、PPO、DDPG、SAC、TD3),将固定10个基点的基准与经Optuna调优超参数的AC模型进行了对比。结果表明:(i)成本模型在三个环境中均显著改变了算法的绝对表现及相对排名;(ii)AC模型产生了截然不同的交易行为,例如日成本从20万美元降至8000美元,换手率从19%下降至1%;(iii)超参数优化对约束病态交易至关重要,成本降幅可达82%;(iv)算法与成本模型的交互作用高度依赖于具体环境,例如在保证金交易中,DDPG的样本外夏普比率在AC模型下从-2.1跃升至0.3,而SAC则从-0.5降至-1.2。我们将整套工具作为FinRL-Meta的开源扩展发布。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
《基于深度强化学习的战场策略》
专知会员服务
38+阅读 · 2025年1月13日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
量化金融强化学习论文集合
专知
14+阅读 · 2019年12月18日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
4+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
《基于深度强化学习的战场策略》
专知会员服务
38+阅读 · 2025年1月13日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
量化金融强化学习论文集合
专知
14+阅读 · 2019年12月18日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员