Backpropagation (BP) is widely viewed as biologically implausible, in part because it requires feedback weights to be the transpose of forward weights for error propagation. Interestingly, when training a network with fixed random feedback weights to circumvent this issue, learning aligns the forward weights with the feedback weights, leading the backpropagated error signal to become an approximation of the standard gradient used by BP. This process, called Feedback Alignment (FA), occurs in MLPs and very shallow CNNs but does not scale well to deeper architectures. In this work, we first investigated differences between BP and FA models, trained on CIFAR10, specifically focusing on the effective rank of the signal. We found that the FA error has a considerably lower rank and hence is constrained to a lower-dimensional subspace compared to BP, limiting exploration of the parameter space. Motivated by this observation, we evaluated two mechanisms for increasing the effective dimensionality of FA: Muon, an optimiser that orthogonalises weight updates; and hidden activity normalisation, which promotes activation orthogonality. Across larger architectures and benchmarks, we find that these methods consistently improve over FA baselines, for example, on CIFAR100 with a Resnet-18, accuracy increases by 9 percentage points. Our results identify low-dimensional gradient dynamics as a key obstacle to scaling FA and suggest that inducing higher-dimensional update geometry is a promising route toward scaling alternatives to backpropagation.


翻译:反向传播(BP)被广泛认为在生物学上不可信,部分原因在于其需要将反馈权重设置为前向权重的转置以实现误差传播。有趣的是,当使用固定的随机反馈权重训练网络以规避此问题时,学习过程会使前向权重与反馈权重对齐,导致反向传播的误差信号成为BP标准梯度的近似。这一过程称为反馈对齐(FA),在多层感知机(MLP)和极浅层卷积神经网络(CNN)中有效,但难以扩展到更深层架构。本文首先研究了基于CIFAR10训练的BP与FA模型差异,重点聚焦于信号的有效秩。我们发现,与BP相比,FA误差的秩显著偏低,因此被约束在更低维的子空间内,限制了参数空间的探索。基于此观察,我们评估了两种提升FA有效维度的机制:Muon优化器,它可正交化权重更新;以及隐层活动归一化,它促进激活正交性。在更大规模架构与基准测试中,这些方法持续优于FA基线,例如在基于Resnet-18的CIFAR100任务上,准确率提升了9个百分点。我们的结果揭示了低维梯度动态是扩展FA的关键障碍,并表明引入更高维度的更新几何是扩展反向传播替代方案的有效途径。

0
下载
关闭预览

相关内容

【MIT博士论文】序列决策中的算法公平性,134页pdf
专知会员服务
25+阅读 · 2023年5月20日
最新《生成式对抗网络GAN逆转》综述论文,22页pdf
专知会员服务
40+阅读 · 2021年1月19日
一文搞懂反向传播
机器学习与推荐算法
18+阅读 · 2020年3月12日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
15+阅读 · 2017年9月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月16日
VIP会员
最新内容
《量子技术的军事任务技术适配与利用》
专知会员服务
0+阅读 · 7分钟前
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【MIT博士论文】序列决策中的算法公平性,134页pdf
专知会员服务
25+阅读 · 2023年5月20日
最新《生成式对抗网络GAN逆转》综述论文,22页pdf
专知会员服务
40+阅读 · 2021年1月19日
相关资讯
一文搞懂反向传播
机器学习与推荐算法
18+阅读 · 2020年3月12日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
15+阅读 · 2017年9月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员