Replicable Constrained Bandits - 专知论文

会员服务 ·

0

约束 · 算法 · 多臂赌博机 · 赌博机 · 可复现性 ·

Replicable Constrained Bandits

翻译：可复现的约束多臂赌博机问题

Matteo Bollini,Gianmarco Genalti,Francesco Emanuele Stradi,Matteo Castiglioni,Alberto Marchesi

Algorithmic \emph{replicability} has recently been introduced to address the need for reproducible experiments in machine learning. A \emph{replicable online learning} algorithm is one that takes the same sequence of decisions across different executions in the same environment, with high probability. We initiate the study of algorithmic replicability in \emph{constrained} MAB problems, where a learner interacts with an unknown stochastic environment for $T$ rounds, seeking not only to maximize reward but also to satisfy multiple constraints. Our main result is that replicability can be achieved in constrained MABs. Specifically, we design replicable algorithms whose regret and constraint violation match those of non-replicable ones in terms of $T$. As a key step toward these guarantees, we develop the first replicable UCB-like algorithm for \emph{unconstrained} MABs, showing that algorithms that employ the optimism in-the-face-of-uncertainty principle can be replicable, a result that we believe is of independent interest.

翻译：算法可复现性最近被引入，以解决机器学习中可重复实验的需求。可复现的在线学习算法是指在相同环境下，以高概率在不同执行过程中做出相同决策序列的算法。我们首次在约束多臂赌博机问题中研究算法可复现性，其中学习者在$T$轮次中与未知随机环境交互，不仅追求奖励最大化，还需满足多重约束。我们的主要结果表明，在约束多臂赌博机中可以实现可复现性。具体而言，我们设计了可复现算法，其遗憾和约束违反在$T$的阶数上与非可复现算法相当。为实现这些保证，我们开发了首个针对无约束多臂赌博机的可复现类UCB算法，证明了采用面对不确定性乐观原则的算法可以具备可复现性，这一结果我们认为具有独立的研究价值。

0

相关内容

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

《战略智能体与有限反馈下的序贯决策》211页

《战略智能体与有限反馈下的序贯决策》211页

专知会员服务

37+阅读 · 2025年5月7日

【巴黎理工学院博士论文】强化学习中的约束探索，209页pdf

【巴黎理工学院博士论文】强化学习中的约束探索，209页pdf

专知会员服务

43+阅读 · 2023年10月29日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

Berkeley博士论文《反馈系统中的可信机器学习》203页pdf

Berkeley博士论文《反馈系统中的可信机器学习》203页pdf

专知会员服务

40+阅读 · 2022年3月25日

强化学习可解释性基础问题探索和方法综述

强化学习可解释性基础问题探索和方法综述

专知会员服务

92+阅读 · 2022年1月16日

机器学习的可解释性

机器学习的可解释性

专知会员服务

69+阅读 · 2020年12月18日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

专知

35+阅读 · 2022年6月2日

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

问答 | 多输出回归问题如何用神经网络模型来实现？

问答 | 多输出回归问题如何用神经网络模型来实现？

AI研习社

12+阅读 · 2018年10月8日

【收藏】机器学习的Pytorch实现资源集合【附下载链接】

【收藏】机器学习的Pytorch实现资源集合【附下载链接】

机器学习算法与Python学习

10+阅读 · 2018年9月8日

机器学习的Pytorch实现资源集合

机器学习的Pytorch实现资源集合

专知

11+阅读 · 2018年9月1日

强化学习初探 - 从多臂老虎机问题说起

强化学习初探 - 从多臂老虎机问题说起

专知

10+阅读 · 2018年4月3日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于确定性重演的多核程序并发错误消除方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

基于随机有限集理论的复杂背景视频多目标跟踪研究

国家自然科学基金

2+阅读 · 2015年12月31日

利用连续变量多组份纠缠态实现经典和量子算法

国家自然科学基金

0+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Fixed-Budget Constrained Best Arm Identification in Grouped Bandits

Arxiv

0+阅读 · 3月4日

Revisiting Matrix Sketching in Linear Bandits: Achieving Sublinear Regret via Dyadic Block Sketching

Arxiv

0+阅读 · 2月27日

Flickering Multi-Armed Bandits

Arxiv

0+阅读 · 2月19日

Blessings of Multiple Good Arms in Multi-Objective Linear Bandits

Arxiv

0+阅读 · 2月13日

Rising Multi-Armed Bandits with Known Horizons

Arxiv

0+阅读 · 2月11日

Bandits with Single-Peaked Preferences and Limited Resources

Arxiv

0+阅读 · 2月10日

Bandit Allocational Instability

Arxiv

0+阅读 · 2月7日

Single Index Bandits: Generalized Linear Contextual Bandits with Unknown Reward Functions

Arxiv

0+阅读 · 2月7日

Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints

Arxiv

0+阅读 · 2月4日

Individual Regret in Cooperative Stochastic Multi-Armed Bandits

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

多臂赌博机

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

0+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

0+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

《战略智能体与有限反馈下的序贯决策》211页

《战略智能体与有限反馈下的序贯决策》211页

专知会员服务

37+阅读 · 2025年5月7日

【巴黎理工学院博士论文】强化学习中的约束探索，209页pdf

【巴黎理工学院博士论文】强化学习中的约束探索，209页pdf

专知会员服务

43+阅读 · 2023年10月29日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

Berkeley博士论文《反馈系统中的可信机器学习》203页pdf

Berkeley博士论文《反馈系统中的可信机器学习》203页pdf

专知会员服务

40+阅读 · 2022年3月25日

强化学习可解释性基础问题探索和方法综述

强化学习可解释性基础问题探索和方法综述

专知会员服务

92+阅读 · 2022年1月16日

机器学习的可解释性

机器学习的可解释性

专知会员服务

69+阅读 · 2020年12月18日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

专知

35+阅读 · 2022年6月2日

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

问答 | 多输出回归问题如何用神经网络模型来实现？

问答 | 多输出回归问题如何用神经网络模型来实现？

AI研习社

12+阅读 · 2018年10月8日

【收藏】机器学习的Pytorch实现资源集合【附下载链接】

【收藏】机器学习的Pytorch实现资源集合【附下载链接】

机器学习算法与Python学习

10+阅读 · 2018年9月8日

机器学习的Pytorch实现资源集合

机器学习的Pytorch实现资源集合

专知

11+阅读 · 2018年9月1日

强化学习初探 - 从多臂老虎机问题说起

强化学习初探 - 从多臂老虎机问题说起

专知

10+阅读 · 2018年4月3日

相关论文

Fixed-Budget Constrained Best Arm Identification in Grouped Bandits

Arxiv

0+阅读 · 3月4日

Revisiting Matrix Sketching in Linear Bandits: Achieving Sublinear Regret via Dyadic Block Sketching

Arxiv

0+阅读 · 2月27日

Flickering Multi-Armed Bandits

Arxiv

0+阅读 · 2月19日

Blessings of Multiple Good Arms in Multi-Objective Linear Bandits

Arxiv

0+阅读 · 2月13日

Rising Multi-Armed Bandits with Known Horizons

Arxiv

0+阅读 · 2月11日

Bandits with Single-Peaked Preferences and Limited Resources

Arxiv

0+阅读 · 2月10日

Bandit Allocational Instability

Arxiv

0+阅读 · 2月7日

Single Index Bandits: Generalized Linear Contextual Bandits with Unknown Reward Functions

Arxiv

0+阅读 · 2月7日

Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints

Arxiv

0+阅读 · 2月4日

Individual Regret in Cooperative Stochastic Multi-Armed Bandits

Arxiv

0+阅读 · 2月3日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于确定性重演的多核程序并发错误消除方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

基于随机有限集理论的复杂背景视频多目标跟踪研究

国家自然科学基金

2+阅读 · 2015年12月31日

利用连续变量多组份纠缠态实现经典和量子算法

国家自然科学基金

0+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员