Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits - 专知论文

会员服务 ·

0

规范化的 · 线性的 · 赌博机/老虎机 · 优化器 · Performer ·

2023 年 5 月 11 日

Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits

翻译：带有裁剪的隐式归一化预测器用于线性和非线性重尾多臂赌博机

Yuriy Dorn,Kornilov Nikita,Nikolay Kutuzov,Alexander Nazin,Eduard Gorbunov,Alexander Gasnikov

Implicitly Normalized Forecaster (online mirror descent with Tsallis entropy as prox-function) is known to be an optimal algorithm for adversarial multi-armed problems (MAB). However, most of the complexity results rely on bounded rewards or other restrictive assumptions. Recently closely related best-of-both-worlds algorithm were proposed for both adversarial and stochastic heavy-tailed MAB settings. This algorithm is known to be optimal in both settings, but fails to exploit data fully. In this paper, we propose Implicitly Normalized Forecaster with clipping for MAB problems with heavy-tailed distribution on rewards. We derive convergence results under mild assumptions on rewards distribution and show that the proposed method is optimal for both linear and non-linear heavy-tailed stochastic MAB problems. Also we show that algorithm usually performs better compared to best-of-two-worlds algorithm.

翻译：隐式归一化预测器（以Tsallis熵为近端函数的在线镜像下降）被视为对抗性多臂赌博机（MAB）问题的最优算法。然而，大多数复杂度结果依赖于有界奖励或其他限制性假设。最近，针对对抗性和随机重尾MAB设置，提出了密切相关的"两全其美"算法。该算法在两种设置下均被证明是最优的，但未能充分利用数据。本文针对奖励服从重尾分布的MAB问题，提出了带有裁剪的隐式归一化预测器。我们在奖励分布的温和假设下推导了收敛结果，并证明所提方法对线性和非线性重尾随机MAB问题均具有最优性。此外，我们表明该算法的性能通常优于"两全其美"算法。

0

相关内容

规范化的

宾夕法尼亚大学最新《不确定性估计》课程笔记，134页pdf，附Slides

宾夕法尼亚大学最新《不确定性估计》课程笔记，134页pdf，附Slides

专知会员服务

49+阅读 · 2022年11月13日

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

专知会员服务

69+阅读 · 2021年3月27日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

164+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

106+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

19篇ICML2019论文摘录选读！

19篇ICML2019论文摘录选读！

专知

28+阅读 · 2019年4月28日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

13+阅读 · 2018年6月24日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

【推荐】(Keras)LSTM多元时序预测教程

【推荐】(Keras)LSTM多元时序预测教程

机器学习研究会

25+阅读 · 2017年8月14日

炭质泥岩路堤动力湿化变形及损伤失稳机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于离散单元法的散体材料桩复合地基变形及承载机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

蓖麻矮化相关RcDof基因功能分析及调控机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

碳纤维复合板材超声振动热冲压变形行为的研究

国家自然科学基金

0+阅读 · 2012年12月31日

microRNA-101靶向调控EZH2在肝癌化疗耐药中的作用及机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

Ge-MOS技术中镧系复合高k介质与GeO2/Ge界面调控的研究

国家自然科学基金

0+阅读 · 2012年12月31日

耦合多源数据的森林碳水通量模型驱动参数同化机制

国家自然科学基金

0+阅读 · 2012年12月31日

微重力池沸腾中生长气泡周围细观流动与传热机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于nBn型低暗电流InAs/GaSb超晶格双色红外探测器的研究

国家自然科学基金

0+阅读 · 2012年12月31日

Langmuir环流在上层海洋混合中的作用

国家自然科学基金

0+阅读 · 2008年12月31日

On standardness and the non-estimability of certain functionals of a set

Arxiv

0+阅读 · 2023年6月28日

The Metropolis algorithm: A useful tool for epidemiologists

Arxiv

0+阅读 · 2023年6月28日

Avoidance of Concave Obstacles through Rotation of Nonlinear Dynamics

Arxiv

0+阅读 · 2023年6月28日

Locally tail-scale invariant scoring rules for evaluation of extreme value forecasts

Arxiv

0+阅读 · 2023年6月26日

Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits

Arxiv

0+阅读 · 2023年6月26日

Normalized power priors always discount historical data

Arxiv

0+阅读 · 2023年6月26日

Analysis of Scale-Variant Robust Kernel Optimization for Non-linear Least Squares Problems

Arxiv

0+阅读 · 2023年6月24日

Logarithmic Regret for Matrix Games against an Adversary with Noisy Bandit Feedback

Arxiv

0+阅读 · 2023年6月22日

Extremal Random Forests

Arxiv

0+阅读 · 2023年6月22日

Improving evidential deep learning via multi-task learning

Arxiv

11+阅读 · 2021年12月17日

VIP会员

文章信息

相关主题

赌博机/老虎机

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

10+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

8+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

11+阅读 · 7月19日

相关VIP内容

宾夕法尼亚大学最新《不确定性估计》课程笔记，134页pdf，附Slides

宾夕法尼亚大学最新《不确定性估计》课程笔记，134页pdf，附Slides

专知会员服务

49+阅读 · 2022年11月13日

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

专知会员服务

69+阅读 · 2021年3月27日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

164+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

106+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

19篇ICML2019论文摘录选读！

19篇ICML2019论文摘录选读！

专知

28+阅读 · 2019年4月28日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

13+阅读 · 2018年6月24日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

【推荐】(Keras)LSTM多元时序预测教程

【推荐】(Keras)LSTM多元时序预测教程

机器学习研究会

25+阅读 · 2017年8月14日

相关论文

On standardness and the non-estimability of certain functionals of a set

Arxiv

0+阅读 · 2023年6月28日

The Metropolis algorithm: A useful tool for epidemiologists

Arxiv

0+阅读 · 2023年6月28日

Avoidance of Concave Obstacles through Rotation of Nonlinear Dynamics

Arxiv

0+阅读 · 2023年6月28日

Locally tail-scale invariant scoring rules for evaluation of extreme value forecasts

Arxiv

0+阅读 · 2023年6月26日

Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits

Arxiv

0+阅读 · 2023年6月26日

Normalized power priors always discount historical data

Arxiv

0+阅读 · 2023年6月26日

Analysis of Scale-Variant Robust Kernel Optimization for Non-linear Least Squares Problems

Arxiv

0+阅读 · 2023年6月24日

Logarithmic Regret for Matrix Games against an Adversary with Noisy Bandit Feedback

Arxiv

0+阅读 · 2023年6月22日

Extremal Random Forests

Arxiv

0+阅读 · 2023年6月22日

Improving evidential deep learning via multi-task learning

Arxiv

11+阅读 · 2021年12月17日

相关基金

炭质泥岩路堤动力湿化变形及损伤失稳机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于离散单元法的散体材料桩复合地基变形及承载机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

蓖麻矮化相关RcDof基因功能分析及调控机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

碳纤维复合板材超声振动热冲压变形行为的研究

国家自然科学基金

0+阅读 · 2012年12月31日

microRNA-101靶向调控EZH2在肝癌化疗耐药中的作用及机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

Ge-MOS技术中镧系复合高k介质与GeO2/Ge界面调控的研究

国家自然科学基金

0+阅读 · 2012年12月31日

耦合多源数据的森林碳水通量模型驱动参数同化机制

国家自然科学基金

0+阅读 · 2012年12月31日

微重力池沸腾中生长气泡周围细观流动与传热机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于nBn型低暗电流InAs/GaSb超晶格双色红外探测器的研究

国家自然科学基金

0+阅读 · 2012年12月31日

Langmuir环流在上层海洋混合中的作用

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员