Learning robust models under adversarial settings is widely recognized as requiring a considerably large number of training samples. Recent work proposes semi-supervised adversarial training (SSAT), which utilizes external unlabeled or synthetically generated data and is currently the state of the art. However, SSAT requires substantial extra data to attain high robustness, resulting in prolonged training time and increased memory usage. In this paper, we propose data reduction strategies to improve the efficiency of SSAT by optimizing the amount of additional data incorporated. Specifically, we design novel latent clustering-based techniques to select or generate a small, critical subset of data samples near the model's decision boundary. While focusing on boundary-adjacent points, our methods maintain a balanced ratio between boundary and non-boundary data points, thereby avoiding overfitting. Comprehensive experiments across image benchmarks demonstrate that our methods can effectively reduce SSAT's data requirements and computational costs while preserving its strong robustness advantages. In particular, our latent-space selection scheme based on k-means clustering and our guided diffusion-based approach with LCG-KM are the most effective, achieving nearly identical robust accuracies with 5 times to 10 times less unlabeled data. When compared to full SSAT trained to convergence, our methods reduce total runtime by approximately 3 times to 4 times due to strategic prioritization of unlabeled data.


翻译:在对抗环境下学习鲁棒模型被广泛认为需要大量训练样本。近期研究提出了半监督对抗训练(SSAT),该方法利用外部未标记或合成生成的数据,目前处于最先进水平。然而,SSAT需要大量额外数据才能实现高鲁棒性,导致训练时间延长和内存使用增加。本文提出数据约简策略,通过优化额外数据的纳入量来提升SSAT的效率。具体而言,我们设计了新颖的基于潜在聚类的技术,以选择或生成模型决策边界附近的关键数据子集。在聚焦边界邻近点的同时,我们的方法保持了边界与非边界数据点之间的平衡比例,从而避免过拟合。在图像基准测试上的综合实验表明,我们的方法能有效降低SSAT的数据需求和计算成本,同时保持其强大的鲁棒性优势。特别地,我们基于k-means聚类的潜在空间选择方案,以及采用LCG-KM的引导扩散方法最为有效,在使用减少5至10倍的未标记数据情况下,获得了几乎相同的鲁棒精度。与训练至收敛的完整SSAT相比,由于对未标记数据的策略性优先级处理,我们的方法将总运行时间减少了约3至4倍。

0
下载
关闭预览

相关内容

【博士论文】对抗鲁棒性深度学习算法
专知会员服务
16+阅读 · 2025年9月29日
【ICLR2024】为样本高效的强化学习预训练基于目标的模型
专知会员服务
17+阅读 · 2021年8月6日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
【MIT博士论文】数据高效强化学习,176页pdf
半监督深度学习小结:类协同训练和一致性正则化
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【MIT博士论文】数据高效强化学习,176页pdf
半监督深度学习小结:类协同训练和一致性正则化
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员