We consider the problem of fitting a reinforcement learning (RL) model to some given behavioral data under a multi-armed bandit environment. These models have received much attention in recent years for characterizing human and animal decision making behavior. We provide a generic mathematical optimization problem formulation for the fitting problem of a wide range of RL models that appear frequently in scientific research applications. We then provide a detailed theoretical analysis of its convexity properties. Based on the theoretical results, we introduce a novel solution method for the fitting problem of RL models based on convex relaxation and optimization. Our method is then evaluated in several simulated and real-world bandit environments to compare with some benchmark methods that appear in the literature. Numerical results indicate that our method achieves comparable performance to the state-of-the-art, while significantly reducing computation time. We also provide an open-source Python package for our proposed method to empower researchers to apply it in the analysis of their datasets directly, without prior knowledge of convex optimization.


翻译:我们研究了多臂赌博机环境下,利用给定的行为数据拟合强化学习模型的问题。这类模型近年来在刻画人类及动物的决策行为方面备受关注。针对科学研究应用中频繁出现的多类强化学习模型,我们提供了拟合问题的通用数学优化问题形式化描述,并对其凸性性质进行了详细的理论分析。基于理论结果,我们提出了一种基于凸松弛与优化的强化学习模型拟合新方法。在多个模拟及真实赌博机场景中,我们将该方法与文献中出现的基准方法进行了对比评估。数值结果表明,本方法在显著降低计算时间的同时,实现了与现有最优方法相当的性能。我们还为所提方法提供了开源Python工具包,使研究者无需具备凸优化先验知识即可直接将其用于数据分析。

0
下载
关闭预览

相关内容

基于深度强化学习的对手建模方法研究综述
专知会员服务
84+阅读 · 2023年4月17日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
博客 | 机器学习中的数学基础(凸优化)
AI研习社
14+阅读 · 2018年12月16日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
29+阅读 · 2023年2月10日
Arxiv
18+阅读 · 2019年1月16日
VIP会员
最新内容
21世纪的无人机战争
专知会员服务
1+阅读 · 47分钟前
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
基于深度强化学习的对手建模方法研究综述
专知会员服务
84+阅读 · 2023年4月17日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员