Learning Safely Without Knowing the World:COMPASS-Hedge - 专知论文

会员服务 ·

0

Learning · 基准 · 知识 (knowledge) · 情景 · 在线 ·

Learning Safely Without Knowing the World:COMPASS-Hedge

翻译：未知世界的安全学习：COMPASS-Hedge

Ting Hu,Luanda Cai,Manolis Vlatakis

Online learning algorithms often face a fundamental trilemma: balancing regret guarantees between adversarial and stochastic settings and providing baseline safety against a fixed comparator. While existing methods excel in one or two of these regimes, they typically fail to unify all three without sacrificing optimal rates or requiring oracle access to problem-dependent parameters. In this work, we bridge this gap by introducing COMPASS-Hedge. To the best of our knowledge, our algorithm is the first full-information anytime method to simultaneously achieve, up to logarithmic factors: i) minimax-optimal regret in adversarial environments; ii) instance-optimal, gap-dependent regret in stochastic environments; and iii) $\tilde{\mathcal{O}}(1)$ regret relative to a designated baseline policy. Crucially, COMPASS-Hedge is parameter-free and requires no prior knowledge of the environment's nature or the magnitude of the stochastic suboptimality gaps. Our approach hinges on a novel integration of adaptive pseudo-regret scaling and phase-based aggression, coupled with a comparator-aware mixing strategy. To the best of our knowledge, this provides the first "best-of-three-world" guarantee in the full-information setting, establishing that baseline safety does not have to come at the cost of worst-case robustness or stochastic efficiency.

翻译：在线学习算法常面临一个基本的三难困境：在对抗性与随机性场景间的遗憾界权衡，以及针对固定比较器的基线安全性。尽管现有方法能在其中一两个领域表现出色，但通常无法在不牺牲最优速率或需要先知式访问问题相关参数的前提下统一所有三个目标。在本工作中，我们通过引入COMPASS-Hedge弥合了这一鸿沟。据我们所知，我们的算法是首个全信息任意时间方法，能同时实现（至多对数因子）：i) 对抗环境中的极小化最优遗憾；ii) 随机环境中基于间隔的实例最优遗憾；iii) 相对于指定基线策略的 $\tilde{\mathcal{O}}(1)$ 遗憾。关键在于，COMPASS-Hedge无需参数且无需预先了解环境性质或随机次优性间隔的幅度。我们的方法依赖于自适应伪遗憾缩放与基于阶段的激进策略的新颖整合，并结合了比较器感知的混合策略。据我们所知，这提供了全信息设置下首个"三世界最优"保证，证明基线安全性无需以牺牲最坏情况鲁棒性或随机环境效率为代价。

0

相关内容

Learning

深度学习模型安全：威胁与防御，176页pdf

深度学习模型安全：威胁与防御，176页pdf

专知会员服务

28+阅读 · 2024年12月13日

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

专知会员服务

52+阅读 · 2023年3月16日

【普林斯顿博士论文】深度学习安全性，275页pdf

【普林斯顿博士论文】深度学习安全性，275页pdf

专知会员服务

67+阅读 · 2023年2月9日

【2022新书】网络安全的博弈论与机器学习，547页pdf

【2022新书】网络安全的博弈论与机器学习，547页pdf

专知会员服务

117+阅读 · 2022年8月12日

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

专知会员服务

58+阅读 · 2022年7月26日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

机器学习的安全问题及隐私保护

专知会员服务

40+阅读 · 2020年12月20日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

31+阅读 · 2020年11月21日

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

专知会员服务

26+阅读 · 2020年4月2日

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

专知会员服务

16+阅读 · 2019年10月3日

【2022新书】网络安全的博弈论与机器学习，547页pdf

【2022新书】网络安全的博弈论与机器学习，547页pdf

专知

14+阅读 · 2022年8月12日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

关于弱监督学习，这可能是目前最详尽的一篇科普文

关于弱监督学习，这可能是目前最详尽的一篇科普文

AI科技评论

29+阅读 · 2019年5月1日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知

42+阅读 · 2019年1月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度学习应用于网络空间安全所面临的十大问题与机遇

深度学习应用于网络空间安全所面临的十大问题与机遇

计算机研究与发展

22+阅读 · 2018年6月7日

物联网安全搜索技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

Safe Exploration via Policy Priors

Arxiv

0+阅读 · 6月15日

RAMAC: Multimodal Risk-Aware Offline Reinforcement Learning and the Role of Behavior Regularization

Arxiv

0+阅读 · 6月11日

Learning Robot Safety from Sparse Human Feedback using Conformal Prediction

Arxiv

0+阅读 · 6月11日

Safe-RULE: Safe Reinforcement UnLEarning

Arxiv

0+阅读 · 6月8日

Offline-to-Online Learning in Linear Bandits

Arxiv

0+阅读 · 6月3日

Learning Safely Without Knowing the World:COMPASS-Hedge

Arxiv

0+阅读 · 5月28日

Landseer: Exploring the Machine Learning Defense Landscape

Arxiv

0+阅读 · 5月26日

Learning-Augmented Online Scheduling with Parsimonious Preemption

Arxiv

0+阅读 · 5月22日

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Arxiv

0+阅读 · 5月11日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

知识 (knowledge)

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

深度学习模型安全：威胁与防御，176页pdf

深度学习模型安全：威胁与防御，176页pdf

专知会员服务

28+阅读 · 2024年12月13日

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

专知会员服务

52+阅读 · 2023年3月16日

【普林斯顿博士论文】深度学习安全性，275页pdf

【普林斯顿博士论文】深度学习安全性，275页pdf

专知会员服务

67+阅读 · 2023年2月9日

【2022新书】网络安全的博弈论与机器学习，547页pdf

【2022新书】网络安全的博弈论与机器学习，547页pdf

专知会员服务

117+阅读 · 2022年8月12日

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

专知会员服务

58+阅读 · 2022年7月26日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

机器学习的安全问题及隐私保护

专知会员服务

40+阅读 · 2020年12月20日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

31+阅读 · 2020年11月21日

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

专知会员服务

26+阅读 · 2020年4月2日

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

专知会员服务

16+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【2022新书】网络安全的博弈论与机器学习，547页pdf

【2022新书】网络安全的博弈论与机器学习，547页pdf

专知

14+阅读 · 2022年8月12日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

关于弱监督学习，这可能是目前最详尽的一篇科普文

关于弱监督学习，这可能是目前最详尽的一篇科普文

AI科技评论

29+阅读 · 2019年5月1日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知

42+阅读 · 2019年1月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度学习应用于网络空间安全所面临的十大问题与机遇

深度学习应用于网络空间安全所面临的十大问题与机遇

计算机研究与发展

22+阅读 · 2018年6月7日

相关论文

Safe Exploration via Policy Priors

Arxiv

0+阅读 · 6月15日

RAMAC: Multimodal Risk-Aware Offline Reinforcement Learning and the Role of Behavior Regularization

Arxiv

0+阅读 · 6月11日

Learning Robot Safety from Sparse Human Feedback using Conformal Prediction

Arxiv

0+阅读 · 6月11日

Safe-RULE: Safe Reinforcement UnLEarning

Arxiv

0+阅读 · 6月8日

Offline-to-Online Learning in Linear Bandits

Arxiv

0+阅读 · 6月3日

Learning Safely Without Knowing the World:COMPASS-Hedge

Arxiv

0+阅读 · 5月28日

Landseer: Exploring the Machine Learning Defense Landscape

Arxiv

0+阅读 · 5月26日

Learning-Augmented Online Scheduling with Parsimonious Preemption

Arxiv

0+阅读 · 5月22日

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Arxiv

0+阅读 · 5月11日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

相关基金

物联网安全搜索技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员