The Lipschitz bandit problem extends stochastic bandits to a continuous action set defined over a metric space, where the expected reward function satisfies a Lipschitz condition. In this work, we introduce a new problem of Lipschitz bandit in the presence of stochastic delayed feedback, where the rewards are not observed immediately but after a random delay. We consider both bounded and unbounded stochastic delays, and design algorithms that attain sublinear regret guarantees in each setting. For bounded delays, we propose a delay-aware zooming algorithm that retains the optimal performance of the delay-free setting up to an additional term that scales with the maximal delay $τ_{\max}$. For unbounded delays, we propose a novel phased learning strategy that accumulates reliable feedback over carefully scheduled intervals, and establish a regret lower bound showing that our method is nearly optimal up to logarithmic factors. Finally, we present experimental results to demonstrate the efficiency of our algorithms under various delay scenarios.


翻译:Lipschitz赌博机问题将随机赌博机扩展至定义在度量空间上的连续动作集,其中期望奖励函数满足Lipschitz条件。本文首次提出存在随机延迟反馈的Lipschitz赌博机问题,在该问题中奖励并非即时获得,而是经过随机延迟后才被观测到。我们同时考虑了有界与无界随机延迟情形,并设计了在每种设置下都能获得次线性遗憾保证的算法。针对有界延迟,我们提出了一种延迟感知的缩放算法,该算法在无延迟设置的最优性能基础上,仅增加一个与最大延迟$τ_{\max}$成比例的附加项。对于无界延迟,我们提出了一种新颖的分阶段学习策略,该策略在精心调度的时间区间内累积可靠反馈,并通过建立遗憾下界证明我们的方法在忽略对数因子意义下近乎最优。最后,我们通过实验展示了所提算法在不同延迟场景下的有效性。

0
下载
关闭预览

相关内容

【简明书册】(随机)梯度方法的收敛定理手册,68页pdf
专知会员服务
39+阅读 · 2023年1月31日
【博士论文】弱反馈的序列决策问题
专知会员服务
25+阅读 · 2023年1月2日
专知会员服务
31+阅读 · 2020年12月14日
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
应对时间序列问题有何妙招(Kaggle比赛亚军)
七月在线实验室
32+阅读 · 2018年3月19日
TensorFlow seq2seq中的Attention机制(续)
深度学习每日摘要
15+阅读 · 2017年11月16日
酒鬼漫步的数学——随机过程 | 张天蓉专栏
知识分子
10+阅读 · 2017年8月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月17日
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月16日
Arxiv
0+阅读 · 2月7日
VIP会员
最新内容
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员