Reinforcement learning-based recommender systems have recently gained popularity. However, the design of the reward function, on which the agent relies to optimize its recommendation policy, is often not straightforward. Exploring the causality underlying users' behavior can take the place of the reward function in guiding the agent to capture the dynamic interests of users. Moreover, due to the typical limitations of simulation environments (e.g., data inefficiency), most of the work cannot be broadly applied in large-scale situations. Although some works attempt to convert the offline dataset into a simulator, data inefficiency makes the learning process even slower. Because of the nature of reinforcement learning (i.e., learning by interaction), it cannot collect enough data to train during a single interaction. Furthermore, traditional reinforcement learning algorithms do not have a solid capability like supervised learning methods to learn from offline datasets directly. In this paper, we propose a new model named the causal decision transformer for recommender systems (CDT4Rec). CDT4Rec is an offline reinforcement learning system that can learn from a dataset rather than from online interaction. Moreover, CDT4Rec employs the transformer architecture, which is capable of processing large offline datasets and capturing both short-term and long-term dependencies within the data to estimate the causal relationship between action, state, and reward. To demonstrate the feasibility and superiority of our model, we have conducted experiments on six real-world offline datasets and one online simulator.


翻译:基于强化学习的推荐系统近年来受到广泛关注。然而,智能体依赖其优化推荐策略的奖励函数设计往往并非易事。探索用户行为背后的因果性可以取代奖励函数,引导智能体捕捉用户的动态兴趣。此外,由于模拟环境典型的数据效率低下等限制,多数工作难以广泛应用于大规模场景。尽管部分研究尝试将离线数据集转化为模拟器,但数据效率问题反而减缓了学习进程。受强化学习自身特质(即通过交互进行学习)所限,单次交互中无法收集足够数据进行训练。并且,传统强化学习算法无法像监督学习方法那样具备直接从离线数据集学习的稳健能力。本文提出名为推荐系统因果决策转换器(CDT4Rec)的新模型。CDT4Rec是一种离线强化学习系统,能从数据集中而非在线交互中学习。同时,CDT4Rec采用Transformer架构,可处理大规模离线数据集并捕获数据中的短期与长期依赖关系,从而估计动作、状态与奖励之间的因果关系。为验证模型可行性与优越性,我们在六个真实世界离线数据集和一个在线模拟器上进行了实验。

0
下载
关闭预览

相关内容

战术先验知识启发的多智能体双层强化学习
专知会员服务
115+阅读 · 2023年5月9日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
48+阅读 · 2020年10月26日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
WWW2022 | 基于因果的推荐算法教程
机器学习与推荐算法
3+阅读 · 2022年5月26日
SIGIR2022 | 从Prompt的角度考量强化学习推荐系统
机器学习与推荐算法
1+阅读 · 2022年5月24日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年6月1日
Cold-start Sequential Recommendation via Meta Learner
Arxiv
15+阅读 · 2020年12月10日
Arxiv
92+阅读 · 2020年2月28日
Arxiv
23+阅读 · 2018年8月3日
VIP会员
最新内容
综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
3+阅读 · 6月1日
帕兰蒂尔Maven:军事人工智能的新纪元
专知会员服务
7+阅读 · 6月1日
超越网格:作战环境对炮兵的影响
专知会员服务
3+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
相关资讯
WWW2022 | 基于因果的推荐算法教程
机器学习与推荐算法
3+阅读 · 2022年5月26日
SIGIR2022 | 从Prompt的角度考量强化学习推荐系统
机器学习与推荐算法
1+阅读 · 2022年5月24日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员