Concave Statistical Utility Maximization Bandits via Influence-Function Gradients - 专知论文

会员服务 ·

0

影响函数 · 效用 · 赌博机 · 梯度 · 混合 ·

Concave Statistical Utility Maximization Bandits via Influence-Function Gradients

翻译：基于影响函数梯度的凹性统计效用最大化的赌博机问题

Matías Carrasco,Alejandro Cholaquidis

We study stochastic multi-armed bandits in which the objective is a statistical functional of the long-run reward distribution, rather than expected reward alone. Under mild continuity assumptions, we show that the infinite-horizon problem reduces to optimizing over stationary mixed policies: each weight vector \(w\) on the simplex induces a mixture law \(P^w\), and performance is measured by the concave utility \(U(w)=\mathfrak U(P^w)\). For differentiable statistical utilities, we use influence-function calculus to derive stochastic gradient estimators from bandit feedback. This leads to an entropic mirror-ascent algorithm on a truncated simplex, implemented through multiplicative-weights updates and plug-in estimates of the influence function. We establish regret bounds that separate the mirror-ascent optimization error from the bias caused by estimating the influence function. The framework is developed for general concave distributional utilities and illustrated through variance and Wasserstein objectives, with numerical experiments comparing exact and plug-in influence-function implementations.

翻译：我们研究随机多臂赌博机问题，其目标不仅是期望奖励，更是长期奖励分布的统计泛函。在温和的连续性假设下，我们证明无限时域问题可简化为对平稳混合策略的优化：单纯形上的每个权重向量 \(w\) 诱导一个混合分布 \(P^w\)，性能由凹性效用 \(U(w)=\mathfrak U(P^w)\) 度量。对于可微的统计效用函数，我们利用影响函数微积分从赌博机反馈中推导出随机梯度估计量。由此，我们在截断单纯形上提出一种熵镜像下降算法，该算法通过乘法权重更新和影响函数的插件估计实现。我们建立的遗憾上界将镜像下降的优化误差与估计影响函数引起的偏差分离开来。该框架适用于一般凹性分布效用函数，并通过方差和Wasserstein目标进行说明，同时通过数值实验比较了精确与插件影响函数实现的性能。

0

相关内容

影响函数

随机网络效用最大化在战略排队系统中的博弈论方法

随机网络效用最大化在战略排队系统中的博弈论方法

专知会员服务

11+阅读 · 4月13日

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

专知会员服务

87+阅读 · 2022年10月16日

【干货书】随机优化方法在工程与运筹学中的应用，368页pdf

【干货书】随机优化方法在工程与运筹学中的应用，368页pdf

专知会员服务

77+阅读 · 2022年9月27日

【干货书】凸随机优化，320页pdf

【干货书】凸随机优化，320页pdf

专知会员服务

94+阅读 · 2022年9月16日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

专知会员服务

46+阅读 · 2019年12月25日

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

专知会员服务

18+阅读 · 2019年12月25日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

专知会员服务

23+阅读 · 2019年11月26日

【干货书】凸随机优化，320页pdf

【干货书】凸随机优化，320页pdf

专知

12+阅读 · 2022年9月16日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

专知

10+阅读 · 2020年8月5日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

专知

16+阅读 · 2018年2月13日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

求解非凸随机二阶锥优化问题的无导数方法研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

多维斜反射倒向随机微分方程及最优转换和停止问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于非凸控制区域的倒向重随机控制系统最优控制必要条件的研究

国家自然科学基金

0+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

弹性应变梯度问题的有限元方法

国家自然科学基金

0+阅读 · 2014年12月31日

两类非马氏保险模型下的最优问题以及公司合并问题

国家自然科学基金

0+阅读 · 2014年12月31日

Concave Statistical Utility Maximization Bandits via Influence-Function Gradients

Arxiv

0+阅读 · 4月29日

On Pareto Optimality for Parametric Choice Bandits

Arxiv

0+阅读 · 4月24日

Concave Statistical Utility Maximization Bandits via Influence-Function Gradients

Arxiv

0+阅读 · 4月24日

Spectral bandits for smooth graph functions

Arxiv

0+阅读 · 4月20日

A Direct Approach for Handling Contextual Bandits with Latent State Dynamics

Arxiv

0+阅读 · 4月9日

Instance-optimal stochastic convex optimization: Can we improve upon sample-average and robust stochastic approximation?

Arxiv

0+阅读 · 3月26日

Fitting Reinforcement Learning Model to Behavioral Data under Bandits

Arxiv

0+阅读 · 3月26日

Asymptotically and Minimax Optimal Regret Bounds for Multi-Armed Bandits with Abstention

Arxiv

0+阅读 · 3月22日

Kernel Single-Index Bandits: Estimation, Inference, and Learning

Arxiv

0+阅读 · 3月19日

Invariance-Based Dynamic Regret Minimization

Arxiv

0+阅读 · 3月4日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

4+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

19+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

随机网络效用最大化在战略排队系统中的博弈论方法

随机网络效用最大化在战略排队系统中的博弈论方法

专知会员服务

11+阅读 · 4月13日

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

专知会员服务

87+阅读 · 2022年10月16日

【干货书】随机优化方法在工程与运筹学中的应用，368页pdf

【干货书】随机优化方法在工程与运筹学中的应用，368页pdf

专知会员服务

77+阅读 · 2022年9月27日

【干货书】凸随机优化，320页pdf

【干货书】凸随机优化，320页pdf

专知会员服务

94+阅读 · 2022年9月16日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

专知会员服务

46+阅读 · 2019年12月25日

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

专知会员服务

18+阅读 · 2019年12月25日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

专知会员服务

23+阅读 · 2019年11月26日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【干货书】凸随机优化，320页pdf

【干货书】凸随机优化，320页pdf

专知

12+阅读 · 2022年9月16日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

专知

10+阅读 · 2020年8月5日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

专知

16+阅读 · 2018年2月13日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

相关论文

Concave Statistical Utility Maximization Bandits via Influence-Function Gradients

Arxiv

0+阅读 · 4月29日

On Pareto Optimality for Parametric Choice Bandits

Arxiv

0+阅读 · 4月24日

Concave Statistical Utility Maximization Bandits via Influence-Function Gradients

Arxiv

0+阅读 · 4月24日

Spectral bandits for smooth graph functions

Arxiv

0+阅读 · 4月20日

A Direct Approach for Handling Contextual Bandits with Latent State Dynamics

Arxiv

0+阅读 · 4月9日

Instance-optimal stochastic convex optimization: Can we improve upon sample-average and robust stochastic approximation?

Arxiv

0+阅读 · 3月26日

Fitting Reinforcement Learning Model to Behavioral Data under Bandits

Arxiv

0+阅读 · 3月26日

Asymptotically and Minimax Optimal Regret Bounds for Multi-Armed Bandits with Abstention

Arxiv

0+阅读 · 3月22日

Kernel Single-Index Bandits: Estimation, Inference, and Learning

Arxiv

0+阅读 · 3月19日

Invariance-Based Dynamic Regret Minimization

Arxiv

0+阅读 · 3月4日

相关基金

求解非凸随机二阶锥优化问题的无导数方法研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

多维斜反射倒向随机微分方程及最优转换和停止问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于非凸控制区域的倒向重随机控制系统最优控制必要条件的研究

国家自然科学基金

0+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

弹性应变梯度问题的有限元方法

国家自然科学基金

0+阅读 · 2014年12月31日

两类非马氏保险模型下的最优问题以及公司合并问题

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员