We study online assortment optimization under stochastic choice when a decision maker simultaneously values cumulative revenue performance and the quality of post-hoc inference on revenue contrasts. We analyze a forced-exploration optimism-in-the-face-of-uncertainty (OFU) scheme that combines two regularized maximum-likelihood estimators: one based on all observations for sequential decision making, and one based only on exploration rounds for inference. Our general theory is developed under predictable score proxies and per-round action-dependent curvature domination. Under these conditions we establish a self-normalized concentration inequality, a likelihood-based ellipsoidal confidence-set theorem, and a regret bound for approximate optimistic actions that explicitly accounts for optimization error. For the multinomial logit (MNL) model we derive explicit score and curvature proxies and show that a balanced spaced singleton-exploration schedule yields realized coordinate coverage, implying regret $\Otilde(n_T + T/\sqrt{n_T})$ and revenue-contrast error $\Otilde(1/\sqrt{n_T})$ up to fixed problem-dependent factors. A hard two-assortment subclass yields a matching lower bound at the product level. Consequently, within the polynomial exploration family $n_T \asymp T^α$, the regret and inference rates become $\Otilde(T^{\max\{α,1-α/2\}})$ and $\Otilde(T^{-α/2})$, respectively; hence $α\in[2/3,1)$ is the rate-wise Pareto-undominated interval and $α=2/3$ is the unique balancing point that minimizes the regret exponent. Finally, for the Exponomial Choice and Nested Logit models we state verifiable sufficient conditions that would instantiate the general framework.


翻译:我们研究了在随机选择下的在线品种优化问题,其中决策者同时关注累积收益表现和事后收益对比推断的质量。我们分析了一种强制探索的面对不确定性乐观(OFU)方案,该方案结合了两个正则化最大似然估计:一个基于所有观测值用于序贯决策,另一个仅基于探索轮次用于推断。我们的通用理论是在可预测得分代理和每轮动作相关的曲率支配条件下建立的。在这些条件下,我们建立了一个自归一化浓度不等式、一个基于似然的椭球置信集定理以及一个显式考虑优化误差的近似乐观动作的遗憾界。对于多项式逻辑选择(MNL)模型,我们推导了显式的得分和曲率代理,并表明平衡的空间单例探索调度实现了实际坐标覆盖,从而得到遗憾界Õ(n_T + T/√n_T)和收益对比误差Õ(1/√n_T),直至固定的问题相关因子。一个硬性的两品种子类在乘积层次上给出了匹配的下界。因此,在多项式探索族n_T ≍ T^α内,遗憾和推断率分别变为Õ(T^{max{α,1-α/2}})和Õ(T^{-α/2});因而α∈[2/3,1)是率值帕累托非支配区间,α=2/3是最小化遗憾指数的唯一平衡点。最后,对于指数型选择模型和嵌套逻辑选择模型,我们给出了可验证的充分条件,这些条件将实例化通用框架。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员