We study online learning for new products on a platform that makes capacity-constrained assortment decisions on which products to offer. For a newly listed product, its quality is initially unknown, and quality information propagates through social learning: when a customer purchases a new product and leaves a review, its quality is revealed to both the platform and future customers. Since reviews require purchases, the platform must feature new products in the assortment ("explore") to generate reviews to learn about new products. Such exploration is costly because customer demand for new products is lower than for incumbent products. We characterize the optimal assortments for exploration to minimize regret, addressing two questions. (1) Should the platform offer a new product alone or alongside incumbent products? The former maximizes the purchase probability of the new product but yields lower short-term revenue. Despite the lower purchase probability, we show it is always optimal to pair the new product with the top incumbent products. (2) With multiple new products, should the platform explore them simultaneously or one at a time? We show that the optimal number of new products to explore simultaneously has a simple threshold structure: it increases with the "potential" of the new products and, surprisingly, does not depend on their individual purchase probabilities. We also show that two canonical bandit algorithms, UCB and Thompson Sampling, both fail in this setting for opposite reasons: UCB over-explores while Thompson Sampling under-explores. Our results provide structural insights on how platforms should learn about new products through assortment decisions.


翻译:本文研究平台在容量受限的产品组合决策中,对新产品进行在线学习的问题。对于新上架产品,其质量初始未知,质量信息通过社会学习传播:当消费者购买新产品并留下评价后,平台与未来消费者均能获知其质量。由于评价依赖于购买行为,平台必须将新产品纳入产品组合(“探索”)以生成评价,从而了解新产品。这类探索具有成本,因为消费者对新产品的需求低于对已有产品的需求。我们刻画了最小化遗憾的探索最优产品组合,并回答两个问题:(1)平台应单独推出新产品,还是将其与已有产品共同展示?前者能最大化新产品的购买概率,但导致短期收益降低。尽管购买概率较低,但我们证明将新产品与最优质的已有产品搭配始终是最优策略。(2)面对多个新产品时,平台应同时探索还是逐一探索?我们证明同时探索的最优新产品数量具有简单的阈值结构:该阈值随新产品的“潜力”递增,且令人惊讶地独立于其个体购买概率。我们还表明,两种经典赌博机算法——上置信界算法与汤普森采样——在此场景下因相反原因失效:上置信界算法过度探索,而汤普森采样探索不足。本研究为平台如何通过产品组合决策学习新产品提供了结构性启示。

0
下载
关闭预览

相关内容

用来满足人们需求和欲望的物体或无形的载体。好的产品大家都喜欢
【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
《战略智能体与有限反馈下的序贯决策》211页
专知会员服务
37+阅读 · 2025年5月7日
《序列推荐》最新综述
专知会员服务
22+阅读 · 2024年12月27日
深度学习组合优化,30页ppt,阿姆斯特丹Wouter Kool讲授
专知会员服务
27+阅读 · 2021年2月27日
最新《图嵌入组合优化》综述论文,40页pdf
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月7日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
1+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
1+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
2+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员