Mixing Makes Markovian Contexts Cheap for Linear Bandits - 专知论文

会员服务 ·

0

上下文 · 赌博机 · 混合 · 在线 · 相关性 ·

Mixing Makes Markovian Contexts Cheap for Linear Bandits

翻译：混合使得马尔可夫性上下文在线性赌博机中成本低廉

Kaan Buyukkalayci,Osama Hanna,Christina Fragouli

Recent work shows that when contexts are drawn i.i.d., linear contextual bandits can be reduced to single-context linear bandits. This ``contexts are cheap'' perspective is highly advantageous, as it allows for sharper finite-time analyses and leverages mature techniques from the linear bandit literature, such as those for misspecification and adversarial corruption. However, this reduction crucially relies on the independence of contexts and does not extend to settings with temporally correlated (e.g., Markovian) contexts, which arise frequently in practice. Motivated by applications with temporally correlated availability, we extend this perspective to linear bandits with Markovian context processes, where the action set evolves via an exogenous Markov chain. Our main contribution is a reduction that applies under uniform geometric ergodicity. We construct a stationary surrogate action set to solve the problem using a standard linear bandit oracle, employing a delayed-update scheme to control the bias induced by the nonstationary conditional context distributions. We further provide a phased algorithm for unknown stationary distributions that learns the surrogate mapping online. In both settings, we obtain a high-probability worst-case regret bound matching that of the underlying linear bandit oracle in sufficiently fast mixing regimes. We then validate our results on a real-world instance, where we show practical gains over a LinUCB baseline.

翻译：最近的研究表明，当上下文独立同分布（i.i.d.）时，线性上下文赌博机可以简化为单上下文线性赌博机。这种“上下文廉价”的视角极具优势，因为它允许进行更精确的有限时间分析，并利用线性赌博机文献中的成熟技术（例如针对模型误设和对抗性 corrupt 的技术）。然而，这种简化严重依赖于上下文的独立性，无法推广到具有时间相关性（例如马尔可夫性）上下文的环境中，而这类环境在实践中经常出现。受具有时间相关性可用性的应用启发，我们将这一视角扩展到具有马尔可夫性上下文过程的线性赌博机，其中动作集通过一个外生马尔可夫链演变。我们的主要贡献是在均匀几何遍历条件下给出了一种简化方法。我们构建了一个平稳的代理动作集，以便使用标准线性赌博机预言机来解决问题，并采用延迟更新方案来控制由非平稳条件上下文分布引起的偏差。此外，针对未知的平稳分布，我们提供了一种分阶段算法，该算法可在线学习代理映射。在这两种设置中，我们获得了高概率的最坏情况遗憾界，在足够快的混合速度下该界与底层线性赌博机预言机的界相匹配。然后，我们通过一个真实世界实例验证了结果，展示了相较于 LinUCB 基线的实际性能提升。

0

相关内容

上下文

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

13+阅读 · 4月30日

【博士论文】基于多模态基础模型的上下文学习

【博士论文】基于多模态基础模型的上下文学习

专知会员服务

24+阅读 · 2025年12月17日

【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

专知会员服务

10+阅读 · 2025年5月20日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

【ICML2022】从block-Toeplitz矩阵到图上的微分方程:迈向可扩展掩码Transformers的一般理论

【ICML2022】从block-Toeplitz矩阵到图上的微分方程:迈向可扩展掩码Transformers的一般理论

专知会员服务

18+阅读 · 2022年8月8日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

【Contextual Embedding】什么时候上下文嵌入值得使用?

【Contextual Embedding】什么时候上下文嵌入值得使用?

专知会员服务

16+阅读 · 2020年8月2日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

【电子书|交互式线性代数】《Interactive Linear Algebra》by Dan Margalit, Joseph Rabinoff（附455页pdf）

【电子书|交互式线性代数】《Interactive Linear Algebra》by Dan Margalit, Joseph Rabinoff（附455页pdf）

专知会员服务

69+阅读 · 2019年11月30日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

集成专家意见的在线投资组合策略设计及竞争性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

最小化加权完工时间和的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

套代数框架下时变线性系统的同时稳定化

国家自然科学基金

0+阅读 · 2015年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

Near-Optimal Stochastic Linear Bandits with Delay

Arxiv

0+阅读 · 6月15日

Mixtures of Subspaces for Bandwidth Efficient Context Parallel Training

Arxiv

0+阅读 · 6月15日

Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts

Arxiv

0+阅读 · 6月12日

Algorithm for Contextual Queueing Bandits with Rate-Optimal Queue Length Regret

Arxiv

0+阅读 · 6月8日

Exploration via linearly perturbed loss minimisation

Arxiv

0+阅读 · 6月4日

Neural Variance-aware Dueling Bandits with Deep Representation and Shallow Exploration

Arxiv

0+阅读 · 6月3日

Offline-to-Online Learning in Linear Bandits

Arxiv

0+阅读 · 6月3日

Adaptive Bandit Algorithms for Contextual Matching Markets

Arxiv

0+阅读 · 5月27日

Offline Two-Player Zero-Sum Markov Games with KL Regularization

Arxiv

0+阅读 · 5月13日

Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

0+阅读 · 4分钟前

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

0+阅读 · 23分钟前

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

6+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

5+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

7+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

7+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

9+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

8+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

9+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

11+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

10+阅读 · 6月24日

相关VIP内容

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

13+阅读 · 4月30日

【博士论文】基于多模态基础模型的上下文学习

【博士论文】基于多模态基础模型的上下文学习

专知会员服务

24+阅读 · 2025年12月17日

【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

专知会员服务

10+阅读 · 2025年5月20日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

【ICML2022】从block-Toeplitz矩阵到图上的微分方程:迈向可扩展掩码Transformers的一般理论

【ICML2022】从block-Toeplitz矩阵到图上的微分方程:迈向可扩展掩码Transformers的一般理论

专知会员服务

18+阅读 · 2022年8月8日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

【Contextual Embedding】什么时候上下文嵌入值得使用?

【Contextual Embedding】什么时候上下文嵌入值得使用?

专知会员服务

16+阅读 · 2020年8月2日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

【电子书|交互式线性代数】《Interactive Linear Algebra》by Dan Margalit, Joseph Rabinoff（附455页pdf）

【电子书|交互式线性代数】《Interactive Linear Algebra》by Dan Margalit, Joseph Rabinoff（附455页pdf）

专知会员服务

69+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

《北约数字教官网络发展路径》128页报告

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

相关论文

Near-Optimal Stochastic Linear Bandits with Delay

Arxiv

0+阅读 · 6月15日

Mixtures of Subspaces for Bandwidth Efficient Context Parallel Training

Arxiv

0+阅读 · 6月15日

Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts

Arxiv

0+阅读 · 6月12日

Algorithm for Contextual Queueing Bandits with Rate-Optimal Queue Length Regret

Arxiv

0+阅读 · 6月8日

Exploration via linearly perturbed loss minimisation

Arxiv

0+阅读 · 6月4日

Neural Variance-aware Dueling Bandits with Deep Representation and Shallow Exploration

Arxiv

0+阅读 · 6月3日

Offline-to-Online Learning in Linear Bandits

Arxiv

0+阅读 · 6月3日

Adaptive Bandit Algorithms for Contextual Matching Markets

Arxiv

0+阅读 · 5月27日

Offline Two-Player Zero-Sum Markov Games with KL Regularization

Arxiv

0+阅读 · 5月13日

Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent

Arxiv

0+阅读 · 5月7日

相关基金

集成专家意见的在线投资组合策略设计及竞争性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

最小化加权完工时间和的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

套代数框架下时变线性系统的同时稳定化

国家自然科学基金

0+阅读 · 2015年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员