In the secretary problem, a set of secretary candidates arrive in a uniformly random order and reveal their values one by one. A company, who can only hire one candidate and hopes to maximize the expected value of its hire, needs to make irrevocable online decisions about whether to hire the current candidate. The classical framework of evaluating a policy is to compute its worst-case competitive ratio against the optimal solution in hindsight, and there the best policy -- the ``$1/e$ law'' -- has a competitive ratio of $1/e$. We propose an alternative evaluation framework through the lens of regret -- the worst-case additive difference between the optimal hindsight solution and the expected performance of the policy, assuming that each value is normalized between $0$ and $1$. The $1/e$ law for the classical framework has a regret of $1 - 1/e \approx 0.632$; by contrast, we show that the class of ``pricing curves'' algorithms can guarantee a regret of at most $1/4 = 0.25$ (which is tight within the class), and the class of ``best-only pricing curves'' algorithms can guarantee a regret of at most $0.190$ (with a lower bound of $0.171$). In addition, we show that in general, no policy can give a regret guarantee better than $0.152$. Finally, we discuss other objectives in our regret-minimization framework, such as selecting the top-$k$ candidates for $k > 1$, or maximizing revenue during the selection process.


翻译:在秘书问题中,一组秘书候选人以均匀随机顺序到达,并逐一揭示其价值。一家公司只能雇用一名候选人,并希望最大化其雇用候选人的期望价值,因此需要在是否雇用当前候选人方面做出不可撤销的在线决策。评估策略的经典框架是计算其在最坏情况下相对于事后最优解的竞争比,其中最优策略——"1/e法则"——的竞争比为1/e。我们提出一种通过遗憾视角的替代评估框架——假设每个价值已归一化到0与1之间,遗憾定义为事后最优解与策略期望性能之间的最坏情况加性差异。经典框架下的1/e法则遗憾为1 - 1/e ≈ 0.632;相比之下,我们证明"定价曲线"算法类可保证至多1/4 = 0.25的遗憾(在该算法类内该界是紧的),而"仅最优定价曲线"算法类可保证至多0.190的遗憾(下界为0.171)。此外,我们证明在一般情况下,任何策略都无法给出优于0.152的遗憾保证。最后,我们讨论了遗憾最小化框架下的其他目标,例如为k > 1选择前k名候选人,或在选择过程中最大化收益。

0
下载
关闭预览

相关内容

《战略智能体与有限反馈下的序贯决策》211页
专知会员服务
36+阅读 · 2025年5月7日
【2023新书】使用博弈论进行决策,215页pdf
专知会员服务
131+阅读 · 2023年4月19日
【USTC】对话推荐系统的进展和挑战:综述论文,30页pdf
专知会员服务
22+阅读 · 2021年1月27日
LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
52+阅读 · 2021年1月11日
面试/提升必看丨30个困扰B端产品经理的常见问题(内附资料)
人人都是产品经理
14+阅读 · 2020年10月4日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
作为字节跳动的研发面试官,有些话我不得不说!
互联网架构师
12+阅读 · 2019年4月22日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 1月30日
Arxiv
0+阅读 · 1月27日
VIP会员
相关VIP内容
《战略智能体与有限反馈下的序贯决策》211页
专知会员服务
36+阅读 · 2025年5月7日
【2023新书】使用博弈论进行决策,215页pdf
专知会员服务
131+阅读 · 2023年4月19日
【USTC】对话推荐系统的进展和挑战:综述论文,30页pdf
专知会员服务
22+阅读 · 2021年1月27日
LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
52+阅读 · 2021年1月11日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员