We study the multinomial logit (MNL) contextual bandit problem for sequential assortment selection. Although most existing research assumes utility functions to be linear in item features, this linearity assumption restricts the modeling of intricate interactions between items and user preferences. A recent work (Zhang & Luo, 2024) has investigated general utility function classes, yet its method faces fundamental trade-offs between computational tractability and statistical efficiency. To address this limitation, we propose a computationally efficient algorithm for MNL contextual bandits leveraging the upper confidence bound principle, specifically designed for non-linear parametric utility functions, including those modeled by neural networks. Under a realizability assumption and a mild geometric condition on the utility function class, our algorithm achieves a regret bound of $\tilde{O}(\sqrt{T})$, where $T$ denotes the total number of rounds. Our result establishes that sharp $\tilde{O}(\sqrt{T})$-regret is attainable even with neural network-based utilities, without relying on strong assumptions such as neural tangent kernel approximations. To the best of our knowledge, our proposed method is the first computationally tractable algorithm for MNL contextual bandits with non-linear utilities that provably attains $\tilde{O}(\sqrt{T})$ regret. Comprehensive numerical experiments validate the effectiveness of our approach, showing robust performance not only in realizable settings but also in scenarios with model misspecification.


翻译:我们研究了用于序列品类选择的多项Logit(MNL)上下文赌博机问题。尽管现有研究大多假设效用函数在物品特征上是线性的,但这种线性假设限制了对物品与用户偏好之间复杂交互的建模。近期一项工作(Zhang & Luo, 2024)探究了广义的效用函数类别,但其方法在计算可处理性与统计效率之间存在根本性的权衡。为解决这一局限,我们提出了一种基于置信上界原理的计算高效算法,专门针对非线性参数化效用函数(包括由神经网络建模的效用函数)设计。在效用函数类满足可实现性假设及温和几何条件下,我们的算法实现了$\tilde{O}(\sqrt{T})$的遗憾界,其中$T$表示总轮数。我们的结果表明,即使采用基于神经网络的效用函数,也无需依赖神经正切核近似等强假设,即可达到尖锐的$\tilde{O}(\sqrt{T})$遗憾界。据我们所知,我们提出的方法是首个针对具有非线性效用的MNL上下文赌博机的计算可处理算法,并理论保证了$\tilde{O}(\sqrt{T})$的遗憾。全面的数值实验验证了我们方法的有效性,其不仅在可实现性设定中,而且在模型设定错误场景下均展现出稳健的性能。

0
下载
关闭预览

相关内容

TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月15日
Arxiv
0+阅读 · 1月14日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员