Zeroth-order optimization (ZO) typically relies on two-point feedback to estimate the unknown gradient of the objective function. Nevertheless, two-point feedback can not be used for online optimization of time-varying objective functions, where only a single query of the function value is possible at each time step. In this work, we propose a new one-point feedback method for online optimization that estimates the objective function gradient using the residual between two feedback points at consecutive time instants. Moreover, we develop regret bounds for ZO with residual feedback for both convex and nonconvex online optimization problems. Specifically, for both deterministic and stochastic problems and for both Lipschitz and smooth objective functions, we show that using residual feedback can produce gradient estimates with much smaller variance compared to conventional one-point feedback methods. As a result, our regret bounds are much tighter compared to existing regret bounds for ZO with conventional one-point feedback, which suggests that ZO with residual feedback can better track the optimizer of online optimization problems. Additionally, our regret bounds rely on weaker assumptions than those used in conventional one-point feedback methods. Numerical experiments show that ZO with residual feedback significantly outperforms existing one-point feedback methods also in practice.


翻译:零点命令优化(ZO)通常依靠两点反馈来估计目标功能的未知梯度。 然而,两点反馈不能用于在网上优化时间变化目标功能, 每一个时间步骤只能对函数值进行单一查询。 在这项工作中, 我们提出一个新的一点反馈方法, 用于在线优化, 利用连续时两个反馈点之间的剩余点来估计目标函数梯度。 此外, 我们为ZO开发了遗憾界限, 并针对 convex 和非convex 在线优化问题提供剩余反馈。 具体地说, 对于确定性和随机问题, 以及利普西茨和平稳目标功能, 我们表明使用残余反馈可以产生梯度估计数, 与传统的一点反馈方法相比差异小得多。 结果, 我们的遗憾界限比传统一点反馈方法的零点偏差要小得多, 也显示现有一点反馈方法的零点反馈方法。

0
下载
关闭预览

相关内容

【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
151+阅读 · 2020年6月28日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年1月21日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
最新内容
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
2+阅读 · 今天6:48
《实现联合作战能力所需的技术》58页报告
专知会员服务
1+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
0+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
1+阅读 · 今天6:12
2025年大语言模型进展报告
专知会员服务
13+阅读 · 4月25日
多智能体协作机制
专知会员服务
12+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
相关VIP内容
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
151+阅读 · 2020年6月28日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员