Stochastic Submodular Bandits with Delayed Composite Anonymous Bandit Feedback - 专知论文

会员服务 ·

0

赌博机 · 多臂赌博机问题 · 多臂赌博机 · 手性 · 条件独立 ·

2023 年 3 月 23 日

Stochastic Submodular Bandits with Delayed Composite Anonymous Bandit Feedback

翻译：带延迟复合匿名赌博反馈的随机子模赌博机

Mohammad Pedramfar,Vaneet Aggarwal

This paper investigates the problem of combinatorial multiarmed bandits with stochastic submodular (in expectation) rewards and full-bandit delayed feedback, where the delayed feedback is assumed to be composite and anonymous. In other words, the delayed feedback is composed of components of rewards from past actions, with unknown division among the sub-components. Three models of delayed feedback: bounded adversarial, stochastic independent, and stochastic conditionally independent are studied, and regret bounds are derived for each of the delay models. Ignoring the problem dependent parameters, we show that regret bound for all the delay models is $\tilde{O}(T^{2/3} + T^{1/3} \nu)$ for time horizon $T$, where $\nu$ is a delay parameter defined differently in the three cases, thus demonstrating an additive term in regret with delay in all the three delay models. The considered algorithm is demonstrated to outperform other full-bandit approaches with delayed composite anonymous feedback.

翻译：本文研究了具有随机子模（期望意义上）奖励和全赌博机延迟反馈的组合多臂赌博机问题，其中延迟反馈被假设为复合且匿名的。换言之，延迟反馈由过去动作奖励的组成部分构成，且各子成分之间的划分未知。我们研究了三种延迟反馈模型：有界对抗性、随机独立性和随机条件独立性，并为每种延迟模型推导了遗憾界。忽略问题依赖参数后，我们证明对于所有延迟模型，遗憾界为$\tilde{O}(T^{2/3} + T^{1/3} \nu)$，其中时间范围为$T$，$\nu$是在三种情况下定义各异的延迟参数，从而表明在所有三种延迟模型中，遗憾值均存在与延迟相关的加性项。实验证明，所考虑的算法在处理延迟复合匿名反馈时优于其他全赌博机方法。

0

相关内容

赌博机

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

专知会员服务

16+阅读 · 2022年12月16日

【经典书】量化金融导论，192页pdf，哈佛大学Stephen Blyth著作

【经典书】量化金融导论，192页pdf，哈佛大学Stephen Blyth著作

专知会员服务

97+阅读 · 2022年4月3日

【AAAI 2022】使用点反馈与标准离线黑箱算法的在线影响力最大化问题

【AAAI 2022】使用点反馈与标准离线黑箱算法的在线影响力最大化问题

专知会员服务

14+阅读 · 2022年1月16日

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

专知会员服务

132+阅读 · 2021年4月25日

机器学习组合优化

机器学习组合优化

专知会员服务

111+阅读 · 2021年2月16日

神经常微分方程教程，50页ppt，A brief tutorial on Neural ODEs

神经常微分方程教程，50页ppt，A brief tutorial on Neural ODEs

专知会员服务

74+阅读 · 2020年8月2日

【快讯】ICML 2020论文出炉，1088篇上榜，你的paper中了吗？

【快讯】ICML 2020论文出炉，1088篇上榜，你的paper中了吗？

专知会员服务

52+阅读 · 2020年6月1日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

OpenAI官方发布：强化学习中的关键论文

OpenAI官方发布：强化学习中的关键论文

专知

14+阅读 · 2018年12月12日

AAAI2019论文抢鲜看！48篇自然语言处理/计算机视觉/机器学习最新接受论文！

AAAI2019论文抢鲜看！48篇自然语言处理/计算机视觉/机器学习最新接受论文！

专知

11+阅读 · 2018年11月4日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

专知

11+阅读 · 2018年3月29日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

对偶Auslander转置及其诱导模类的同调性质研究

国家自然科学基金

0+阅读 · 2015年12月31日

连续时间马氏决策过程均值-方差优化问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

Schrodinger-Poisson方程的若干问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

抽象时滞发展方程周期解的存在性及渐近性态

国家自然科学基金

0+阅读 · 2012年12月31日

设施选址问题基于线性规划的近似算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于活动的超网络实时交通信息发布策略及有效性研究

国家自然科学基金

0+阅读 · 2012年12月31日

可证安全代理密码系统研究

国家自然科学基金

0+阅读 · 2009年12月31日

数值求解最优控制：动态规划方法

国家自然科学基金

1+阅读 · 2009年12月31日

组蛋白乙酰化/去乙酰化对Myocardin诱导的心肌肥厚影响及机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

随机过程的最优控制、稳定性理论及其应用研究

国家自然科学基金

0+阅读 · 2008年12月31日

A Unified Analysis of Nonstochastic Delayed Feedback for Combinatorial Semi-Bandits, Linear Bandits, and MDPs

Arxiv

0+阅读 · 2023年5月15日

Selective Population Protocols

Arxiv

0+阅读 · 2023年5月15日

Validity Constraints for Data Analysis Workflows

Arxiv

0+阅读 · 2023年5月15日

Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs

Arxiv

0+阅读 · 2023年5月15日

Robustness of Bayesian ordinal response model against outliers via divergence approach

Arxiv

0+阅读 · 2023年5月12日

Efficient Adaptive Stochastic Collocation Strategies for Advection-Diffusion Problems with Uncertain Inputs

Arxiv

0+阅读 · 2023年5月12日

On Authentication against a Myopic Adversary using Stochastic Codes

Arxiv

0+阅读 · 2023年5月12日

Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits

Arxiv

0+阅读 · 2023年5月11日

Stochastic differential equations for limiting description of UCB rule for Gaussian multi-armed bandits

Arxiv

0+阅读 · 2023年5月11日

Generalised shot noise representations of stochastic systems driven by non-Gaussian Lévy processes

Arxiv

0+阅读 · 2023年5月10日

VIP会员

文章信息

相关主题

多臂赌博机问题

多臂赌博机

最新内容

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

专知会员服务

2+阅读 · 今天16:15

《基于深度强化学习的反无人机技术研究》178页

《基于深度强化学习的反无人机技术研究》178页

专知会员服务

1+阅读 · 今天16:06

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

专知会员服务

1+阅读 · 今天15:54

“史诗怒火”行动与“AI中心战”模式的浮现

“史诗怒火”行动与“AI中心战”模式的浮现

专知会员服务

1+阅读 · 今天15:31

【CVPR2026教程】扩散模型的解析理解

【CVPR2026教程】扩散模型的解析理解

专知会员服务

0+阅读 · 今天14:49

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

专知会员服务

0+阅读 · 今天14:40

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

13+阅读 · 今天4:12

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

4+阅读 · 今天4:09

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

6+阅读 · 今天4:02

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

5+阅读 · 今天3:54

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

4+阅读 · 今天3:33

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

3+阅读 · 今天3:23

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

3+阅读 · 今天3:15

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

专知会员服务

3+阅读 · 今天3:09

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

7+阅读 · 6月9日

相关VIP内容

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

专知会员服务

16+阅读 · 2022年12月16日

【经典书】量化金融导论，192页pdf，哈佛大学Stephen Blyth著作

【经典书】量化金融导论，192页pdf，哈佛大学Stephen Blyth著作

专知会员服务

97+阅读 · 2022年4月3日

【AAAI 2022】使用点反馈与标准离线黑箱算法的在线影响力最大化问题

【AAAI 2022】使用点反馈与标准离线黑箱算法的在线影响力最大化问题

专知会员服务

14+阅读 · 2022年1月16日

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

专知会员服务

132+阅读 · 2021年4月25日

机器学习组合优化

机器学习组合优化

专知会员服务

111+阅读 · 2021年2月16日

神经常微分方程教程，50页ppt，A brief tutorial on Neural ODEs

神经常微分方程教程，50页ppt，A brief tutorial on Neural ODEs

专知会员服务

74+阅读 · 2020年8月2日

【快讯】ICML 2020论文出炉，1088篇上榜，你的paper中了吗？

【快讯】ICML 2020论文出炉，1088篇上榜，你的paper中了吗？

专知会员服务

52+阅读 · 2020年6月1日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于深度强化学习的反无人机技术研究》178页

“史诗怒火”行动与“AI中心战”模式的浮现

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

相关资讯

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

OpenAI官方发布：强化学习中的关键论文

OpenAI官方发布：强化学习中的关键论文

专知

14+阅读 · 2018年12月12日

AAAI2019论文抢鲜看！48篇自然语言处理/计算机视觉/机器学习最新接受论文！

AAAI2019论文抢鲜看！48篇自然语言处理/计算机视觉/机器学习最新接受论文！

专知

11+阅读 · 2018年11月4日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

专知

11+阅读 · 2018年3月29日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

A Unified Analysis of Nonstochastic Delayed Feedback for Combinatorial Semi-Bandits, Linear Bandits, and MDPs

Arxiv

0+阅读 · 2023年5月15日

Selective Population Protocols

Arxiv

0+阅读 · 2023年5月15日

Validity Constraints for Data Analysis Workflows

Arxiv

0+阅读 · 2023年5月15日

Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs

Arxiv

0+阅读 · 2023年5月15日

Robustness of Bayesian ordinal response model against outliers via divergence approach

Arxiv

0+阅读 · 2023年5月12日

Efficient Adaptive Stochastic Collocation Strategies for Advection-Diffusion Problems with Uncertain Inputs

Arxiv

0+阅读 · 2023年5月12日

On Authentication against a Myopic Adversary using Stochastic Codes

Arxiv

0+阅读 · 2023年5月12日

Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits

Arxiv

0+阅读 · 2023年5月11日

Stochastic differential equations for limiting description of UCB rule for Gaussian multi-armed bandits

Arxiv

0+阅读 · 2023年5月11日

Generalised shot noise representations of stochastic systems driven by non-Gaussian Lévy processes

Arxiv

0+阅读 · 2023年5月10日

相关基金

对偶Auslander转置及其诱导模类的同调性质研究

国家自然科学基金

0+阅读 · 2015年12月31日

连续时间马氏决策过程均值-方差优化问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

Schrodinger-Poisson方程的若干问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

抽象时滞发展方程周期解的存在性及渐近性态

国家自然科学基金

0+阅读 · 2012年12月31日

设施选址问题基于线性规划的近似算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于活动的超网络实时交通信息发布策略及有效性研究

国家自然科学基金

0+阅读 · 2012年12月31日

可证安全代理密码系统研究

国家自然科学基金

0+阅读 · 2009年12月31日

数值求解最优控制：动态规划方法

国家自然科学基金

1+阅读 · 2009年12月31日

组蛋白乙酰化/去乙酰化对Myocardin诱导的心肌肥厚影响及机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

随机过程的最优控制、稳定性理论及其应用研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员