Cascading Bandits With Feedback - 专知论文

会员服务 ·

0

级联 · 边缘 · 边缘推理 · 准确率 · 分析 ·

Cascading Bandits With Feedback

翻译：级联反馈臂机

R Sri Prakash,Nikhil Karamchandani,Sharayu Moharir

Motivated by the challenges of edge inference, we study a variant of the cascade bandit model in which each arm corresponds to an inference model with an associated accuracy and error probability. We analyse four decision-making policies-Explore-then-Commit, Action Elimination, Lower Confidence Bound (LCB), and Thompson Sampling-and provide sharp theoretical regret guarantees for each. Unlike in classical bandit settings, Explore-then-Commit and Action Elimination incur suboptimal regret because they commit to a fixed ordering after the exploration phase, limiting their ability to adapt. In contrast, LCB and Thompson Sampling continuously update their decisions based on observed feedback, achieving constant O(1) regret. Simulations corroborate these theoretical findings, highlighting the crucial role of adaptivity for efficient edge inference under uncertainty.

翻译：受边缘推理挑战的驱动，我们研究了一种级联臂机模型的变体，其中每个臂对应一个具有相关准确率和错误概率的推理模型。我们分析了四种决策策略——先探索后承诺、动作消除、下置信界（LCB）和汤普森采样——并为每种策略提供了严格的理论遗憾界。与经典臂机设置不同，先探索后承诺和动作消除会产生次优遗憾，因为它们在探索阶段后承诺固定顺序，限制了适应能力。相比之下，LCB和汤普森采样基于观测反馈持续更新决策，实现了常数O(1)遗憾。仿真结果验证了这些理论发现，突显了自适应在不确定性下实现高效边缘推理中的关键作用。

0

相关内容

《探索作战层级指挥控制中人机协同作战路径：兼收人类所长与机器所能》最新报告

《探索作战层级指挥控制中人机协同作战路径：兼收人类所长与机器所能》最新报告

专知会员服务

48+阅读 · 1月29日

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

专知会员服务

21+阅读 · 2023年7月16日

《联合火力自动化的效应任务优化方法》2022最新30页技术报告，加拿大国防研究与发展部

《联合火力自动化的效应任务优化方法》2022最新30页技术报告，加拿大国防研究与发展部

专知会员服务

57+阅读 · 2023年1月12日

《子空间学习机 (SLM)：一种新的分类和回归方法》2022最新35页技术报告，美陆军研究实验室

《子空间学习机 (SLM)：一种新的分类和回归方法》2022最新35页技术报告，美陆军研究实验室

专知会员服务

32+阅读 · 2022年11月28日

《通过最优传输失配措施进行鲁棒性贝叶斯推断：应用和算法》麻省理工学院2022最新博士论文

《通过最优传输失配措施进行鲁棒性贝叶斯推断：应用和算法》麻省理工学院2022最新博士论文

专知会员服务

15+阅读 · 2022年6月21日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

121+阅读 · 2022年6月20日

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

专知会员服务

34+阅读 · 2020年6月7日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【中科大】上下文感知推荐系统的图卷积机：Graph Convolution Machine for Context-aware Recommender System

【中科大】上下文感知推荐系统的图卷积机：Graph Convolution Machine for Context-aware Recommender System

专知会员服务

71+阅读 · 2020年2月5日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

专知

23+阅读 · 2022年6月3日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

常用的模型集成方法介绍：bagging、boosting 、stacking

常用的模型集成方法介绍：bagging、boosting 、stacking

机器之心

14+阅读 · 2019年5月15日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

基于身心共融运动训练的肢体康复机器人多模态反馈方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

空间大型机械臂关节用多级行星传动系统动力学基础理论及实验研究

国家自然科学基金

0+阅读 · 2015年12月31日

并联机构运动学标定的参数可辨识特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

防肌肉疲劳双臂机器人人机协同基础研究

国家自然科学基金

1+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

长寿命空间机械臂在轨故障诊断、容错和预测策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

深部煤层采煤机关键传动部件混叠故障解耦诊断理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

Rate-optimal Design for Anytime Best Arm Identification

Rate-optimal Design for Anytime Best Arm Identification

Arxiv

0+阅读 · 5月4日

CHAD: Combinatory Homomorphic Automatic Differentiation

Arxiv

0+阅读 · 5月3日

On Pareto Optimality for Parametric Choice Bandits

Arxiv

0+阅读 · 4月24日

Regret Tail Characterization of Optimal Bandit Algorithms with Generic Rewards

Arxiv

0+阅读 · 4月16日

Best of both worlds: Stochastic & adversarial best-arm identification

Arxiv

0+阅读 · 4月16日

Rate-optimal Design for Anytime Best Arm Identification

Arxiv

0+阅读 · 4月9日

Nearly Optimal Best Arm Identification for Semiparametric Bandits

Arxiv

0+阅读 · 4月5日

Best-Arm Identification with Noisy Actuation

Arxiv

0+阅读 · 4月2日

Towards Generalizable Robotic Data Flywheel: High-Dimensional Factorization and Composition

Arxiv

0+阅读 · 3月26日

Optimization-centric cutting feedback for semiparametric models

Arxiv

0+阅读 · 3月26日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

《探索作战层级指挥控制中人机协同作战路径：兼收人类所长与机器所能》最新报告

《探索作战层级指挥控制中人机协同作战路径：兼收人类所长与机器所能》最新报告

专知会员服务

48+阅读 · 1月29日

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

专知会员服务

21+阅读 · 2023年7月16日

《联合火力自动化的效应任务优化方法》2022最新30页技术报告，加拿大国防研究与发展部

《联合火力自动化的效应任务优化方法》2022最新30页技术报告，加拿大国防研究与发展部

专知会员服务

57+阅读 · 2023年1月12日

《子空间学习机 (SLM)：一种新的分类和回归方法》2022最新35页技术报告，美陆军研究实验室

《子空间学习机 (SLM)：一种新的分类和回归方法》2022最新35页技术报告，美陆军研究实验室

专知会员服务

32+阅读 · 2022年11月28日

《通过最优传输失配措施进行鲁棒性贝叶斯推断：应用和算法》麻省理工学院2022最新博士论文

《通过最优传输失配措施进行鲁棒性贝叶斯推断：应用和算法》麻省理工学院2022最新博士论文

专知会员服务

15+阅读 · 2022年6月21日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

121+阅读 · 2022年6月20日

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

专知会员服务

34+阅读 · 2020年6月7日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【中科大】上下文感知推荐系统的图卷积机：Graph Convolution Machine for Context-aware Recommender System

【中科大】上下文感知推荐系统的图卷积机：Graph Convolution Machine for Context-aware Recommender System

专知会员服务

71+阅读 · 2020年2月5日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

专知

23+阅读 · 2022年6月3日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

常用的模型集成方法介绍：bagging、boosting 、stacking

常用的模型集成方法介绍：bagging、boosting 、stacking

机器之心

14+阅读 · 2019年5月15日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

相关论文

Rate-optimal Design for Anytime Best Arm Identification

Rate-optimal Design for Anytime Best Arm Identification

Arxiv

0+阅读 · 5月4日

CHAD: Combinatory Homomorphic Automatic Differentiation

Arxiv

0+阅读 · 5月3日

On Pareto Optimality for Parametric Choice Bandits

Arxiv

0+阅读 · 4月24日

Regret Tail Characterization of Optimal Bandit Algorithms with Generic Rewards

Arxiv

0+阅读 · 4月16日

Best of both worlds: Stochastic & adversarial best-arm identification

Arxiv

0+阅读 · 4月16日

Rate-optimal Design for Anytime Best Arm Identification

Arxiv

0+阅读 · 4月9日

Nearly Optimal Best Arm Identification for Semiparametric Bandits

Arxiv

0+阅读 · 4月5日

Best-Arm Identification with Noisy Actuation

Arxiv

0+阅读 · 4月2日

Towards Generalizable Robotic Data Flywheel: High-Dimensional Factorization and Composition

Arxiv

0+阅读 · 3月26日

Optimization-centric cutting feedback for semiparametric models

Arxiv

0+阅读 · 3月26日

相关基金

基于身心共融运动训练的肢体康复机器人多模态反馈方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

空间大型机械臂关节用多级行星传动系统动力学基础理论及实验研究

国家自然科学基金

0+阅读 · 2015年12月31日

并联机构运动学标定的参数可辨识特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

防肌肉疲劳双臂机器人人机协同基础研究

国家自然科学基金

1+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

长寿命空间机械臂在轨故障诊断、容错和预测策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

深部煤层采煤机关键传动部件混叠故障解耦诊断理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员