We introduce and study the online Bayesian recommendation problem for a recommender system platform. The platform has the privilege to privately observe a utility-relevant \emph{state} of a product at each round and uses this information to make online recommendations to a stream of myopic users. This paradigm is common in a wide range of scenarios in the current Internet economy. The platform commits to an online recommendation policy that utilizes her information advantage on the product state to persuade self-interested users to follow the recommendation. Since the platform does not know users' preferences or beliefs in advance, we study the platform's online learning problem of designing an adaptive recommendation policy to persuade users while gradually learning users' preferences and beliefs en route. Specifically, we aim to design online learning policies with no \emph{Stackelberg regret} for the platform, i.e., against the optimal benchmark policy in hindsight under the assumption that users will correspondingly adapt their responses to the benchmark policy. Our first result is an online policy that achieves double logarithmic regret dependence on the number of rounds. We also present an information-theoretic lower bound showing that no adaptive online policy can achieve regret with better dependency on the number of rounds. Finally, by formulating the platform's problem as optimizing a linear program with membership oracle access, we present our second online recommendation policy that achieves regret with polynomial dependence on the number of states but logarithmic dependence on the number of rounds.


翻译:我们提出并研究了推荐系统平台中的在线贝叶斯推荐问题。平台每轮可私密观测到产品关于效用的\textit{状态}信息,并利用该信息向一系列短视用户进行在线推荐。这一范式广泛存在于当前互联网经济的多种场景中。平台承诺采用在线推荐策略,利用其在产品状态上的信息优势,说服自利型用户采纳推荐。由于平台事先不了解用户的偏好或信念,我们研究了平台如何设计自适应性推荐策略,在逐步学习用户偏好与信念的同时说服用户。具体而言,我们旨在为平台设计具有\textit{Stackelberg无遗憾}的在线学习策略,即在反向假设用户会相应调整对基准策略响应的前提下,与事后最优基准策略相比的遗憾。我们的第一项成果是提出一种在线策略,其遗憾值关于轮数呈双对数依赖关系。我们还给出了信息论下界,证明任何自适应在线策略都无法在轮数依赖关系上实现更优的遗憾。最后,通过将平台问题形式化为具有成员查询接口的线性规划优化,我们提出了第二种在线推荐策略,其遗憾值关于状态数呈多项式依赖,但关于轮数呈对数依赖。

0
下载
关闭预览

相关内容

LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
52+阅读 · 2021年1月11日
个性化推荐系统技术进展
专知会员服务
66+阅读 · 2020年8月15日
最全推荐系统Embedding召回算法总结
凡人机器学习
30+阅读 · 2020年7月5日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
新书推荐《推荐系统进展:方法与技术》
LibRec智能推荐
13+阅读 · 2019年3月18日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
【推荐系统】深度解析京东个性化推荐系统演进史
产业智能官
23+阅读 · 2017年12月8日
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
3+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
52+阅读 · 2021年1月11日
个性化推荐系统技术进展
专知会员服务
66+阅读 · 2020年8月15日
相关资讯
最全推荐系统Embedding召回算法总结
凡人机器学习
30+阅读 · 2020年7月5日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
新书推荐《推荐系统进展:方法与技术》
LibRec智能推荐
13+阅读 · 2019年3月18日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
【推荐系统】深度解析京东个性化推荐系统演进史
产业智能官
23+阅读 · 2017年12月8日
相关基金
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员