Neural networks increasingly embed non-differentiable components (spiking neurons, quantized layers, discrete routing, blackbox simulators, etc.) where backpropagation is inapplicable and surrogate gradients introduce bias. We present PolyStep, a gradient-free optimizer that updates parameters using only forward passes. Each step evaluates the loss at structured polytope vertices in a compressed subspace, computes softmax-weighted assignments over the resulting cost matrix, and displaces particles toward low-cost vertices via barycentric projection. This update corresponds to the one-sided limit of a regularized optimal-transport problem, inheriting its geometric structure without Sinkhorn iterations. PolyStep trains genuinely non-differentiable models where existing gradient-free methods collapse to near-random accuracy. On hard-LIF spiking networks we reach 93.4% test accuracy, outperforming all gradient-free baselines by over 60~pp and closing to within 4.4~pp of a surrogate-gradient Adam ceiling. Across four additional non-differentiable architectures (int8 quantization, argmax attention, staircase activations, hard MoE routing) we lead every gradient-free competitor. On MAX-SAT scaling from 100 to 1M variables, we sustain above 92% clause satisfaction while evolution strategies drop 8--12~pp. On RL policy search, we match OpenAI-ES on classical control and retain performance under integer and binary quantization that collapses gradient-based methods. We prove convergence to conservative-stationary points at rate $O(\log T/\sqrt{T})$ on piecewise-smooth losses, upgraded to Clarke-stationary on the headline architectures and extended to the piecewise-constant regime via a hitting-time bound. These rates match the known zeroth-order query-complexity lower bounds that all forward-only methods inherit. Code is available at https://github.com/anindex/polystep.


翻译:神经网络日益嵌入不可微组件(如脉冲神经元、量化层、离散路由、黑盒模拟器等),在这些组件中反向传播不再适用,而代理梯度会引入偏差。我们提出PolyStep——一种仅使用前向传播更新参数的无梯度优化器。每一步在压缩子空间中的结构化多面体顶点处评估损失,对所得代价矩阵计算softmax加权分配,并通过重心投影将粒子向低代价顶点移动。该更新对应正则化最优输运问题的单侧极限,继承了其几何结构而无需Sinkhorn迭代。PolyStep能够训练现有无梯度方法退化至接近随机精度的真正不可微模型。在硬LIF脉冲网络上,我们达到93.4%测试准确率,超越所有无梯度基线超过60个百分点,并逼近代理梯度Adam上限仅4.4个百分点。在另外四种不可微架构(int8量化、argmax注意力、阶梯激活、硬MoE路由)上,我们领先所有无梯度竞争者。在变量数从100扩展到100万的MAX-SAT问题中,我们保持超过92%的子句满足率,而进化策略下降8-12个百分点。在强化学习策略搜索中,我们在经典控制任务上匹配OpenAI-ES,且在整数与二进制量化(使梯度方法崩溃)下保持性能。我们证明在分段光滑损失上以$O(\log T/\sqrt{T})$速率收敛至保守稳定点,在主要架构上升级为Clarke稳定点,并通过命中时间界扩展至分段常数区域。这些速率与所有前向方法继承的已知零阶查询复杂度下界匹配。代码开源于https://github.com/anindex/polystep。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
专知会员服务
29+阅读 · 2020年10月24日
CVPR2019教程《胶囊网络(Capsule Networks)综述》,附93页PPT
GAN生成式对抗网络
29+阅读 · 2019年6月21日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月14日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
专知会员服务
29+阅读 · 2020年10月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员