Online learning algorithms often face a fundamental trilemma: balancing regret guarantees between adversarial and stochastic settings and providing baseline safety against a fixed comparator. While existing methods excel in one or two of these regimes, they typically fail to unify all three without sacrificing optimal rates or requiring oracle access to problem-dependent parameters. In this work, we bridge this gap by introducing COMPASS-Hedge. To the best of our knowledge, our algorithm is the first full-information anytime method to simultaneously achieve, up to logarithmic factors: i) minimax-optimal regret in adversarial environments; ii) instance-optimal, gap-dependent regret in stochastic environments; and iii) $\tilde{\mathcal{O}}(1)$ regret relative to a designated baseline policy. Crucially, COMPASS-Hedge is parameter-free and requires no prior knowledge of the environment's nature or the magnitude of the stochastic suboptimality gaps. Our approach hinges on a novel integration of adaptive pseudo-regret scaling and phase-based aggression, coupled with a comparator-aware mixing strategy. To the best of our knowledge, this provides the first "best-of-three-world" guarantee in the full-information setting, establishing that baseline safety does not have to come at the cost of worst-case robustness or stochastic efficiency.


翻译:在线学习算法常面临一个基本的三难困境:在对抗性与随机性场景间的遗憾界权衡,以及针对固定比较器的基线安全性。尽管现有方法能在其中一两个领域表现出色,但通常无法在不牺牲最优速率或需要先知式访问问题相关参数的前提下统一所有三个目标。在本工作中,我们通过引入COMPASS-Hedge弥合了这一鸿沟。据我们所知,我们的算法是首个全信息任意时间方法,能同时实现(至多对数因子):i) 对抗环境中的极小化最优遗憾;ii) 随机环境中基于间隔的实例最优遗憾;iii) 相对于指定基线策略的 $\tilde{\mathcal{O}}(1)$ 遗憾。关键在于,COMPASS-Hedge无需参数且无需预先了解环境性质或随机次优性间隔的幅度。我们的方法依赖于自适应伪遗憾缩放与基于阶段的激进策略的新颖整合,并结合了比较器感知的混合策略。据我们所知,这提供了全信息设置下首个"三世界最优"保证,证明基线安全性无需以牺牲最坏情况鲁棒性或随机环境效率为代价。

0
下载
关闭预览

相关内容

深度学习模型安全:威胁与防御,176页pdf
专知会员服务
28+阅读 · 2024年12月13日
【普林斯顿博士论文】深度学习安全性,275页pdf
专知会员服务
67+阅读 · 2023年2月9日
【2022新书】网络安全的博弈论与机器学习,547页pdf
专知会员服务
117+阅读 · 2022年8月12日
专知会员服务
40+阅读 · 2020年12月20日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
深度学习应用于网络空间安全所面临的十大问题与机遇
计算机研究与发展
22+阅读 · 2018年6月7日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Arxiv
0+阅读 · 6月15日
Arxiv
0+阅读 · 6月8日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员