成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
Adam
关注
0
综合
百科
VIP
热门
动态
论文
精华
Understanding Transformer Optimization via Gradient Heterogeneity
Arxiv
0+阅读 · 2月18日
Stein-Rule Shrinkage for Stochastic Gradient Estimation in High Dimensions
Arxiv
0+阅读 · 2月6日
In-Run Data Shapley for Adam Optimizer
Arxiv
0+阅读 · 2月6日
Decoupling Variance and Scale-Invariant Updates in Adaptive Gradient Descent for Unified Vector and Matrix Optimization
Arxiv
0+阅读 · 2月6日
Cautious Optimizers: Improving Training with One Line of Code
Arxiv
0+阅读 · 2月15日
Clarifying Shampoo: Adapting Spectral Descent to Stochasticity and the Parameter Trajectory
Arxiv
0+阅读 · 2月10日
Do We Need Adam? Surprisingly Strong and Sparse Reinforcement Learning with SGD in LLMs
Arxiv
0+阅读 · 2月7日
Fast Compute for ML Optimization
Arxiv
0+阅读 · 2月15日
Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization
Arxiv
0+阅读 · 2月14日
PolarGrad: A Class of Matrix-Gradient Optimizers from a Unifying Preconditioning Perspective
Arxiv
0+阅读 · 2月5日
Delving into Muon and Beyond: Deep Analysis and Extensions
Arxiv
0+阅读 · 2月4日
Understanding Transformer Optimization via Gradient Heterogeneity
Arxiv
0+阅读 · 1月30日
The Effect of Mini-Batch Noise on the Implicit Bias of Adam
Arxiv
0+阅读 · 2月2日
Matrix-free Second-order Optimization of Gaussian Splats with Residual Sampling
Arxiv
0+阅读 · 1月25日
Optimal Scaling Needs Optimal Norm
Arxiv
0+阅读 · 1月27日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top