成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
Adam
关注
0
综合
百科
VIP
热门
动态
论文
精华
Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails
Arxiv
0+阅读 · 3月3日
Towards Understanding Adam Convergence on Highly Degenerate Polynomials
Arxiv
0+阅读 · 3月10日
Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers
Arxiv
0+阅读 · 3月7日
Do We Need Adam? Surprisingly Strong and Sparse Reinforcement Learning with SGD in LLMs
Arxiv
0+阅读 · 2月24日
Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime
Arxiv
0+阅读 · 3月4日
MuonRec: Shifting the Optimizer Paradigm Beyond Adam in Scalable Generative Recommendation
Arxiv
0+阅读 · 2月28日
The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks
Arxiv
0+阅读 · 3月3日
Understanding Transformer Optimization via Gradient Heterogeneity
Arxiv
0+阅读 · 2月18日
Stein-Rule Shrinkage for Stochastic Gradient Estimation in High Dimensions
Arxiv
0+阅读 · 2月6日
In-Run Data Shapley for Adam Optimizer
Arxiv
0+阅读 · 2月6日
Decoupling Variance and Scale-Invariant Updates in Adaptive Gradient Descent for Unified Vector and Matrix Optimization
Arxiv
0+阅读 · 2月6日
Cautious Optimizers: Improving Training with One Line of Code
Arxiv
0+阅读 · 2月15日
Clarifying Shampoo: Adapting Spectral Descent to Stochasticity and the Parameter Trajectory
Arxiv
0+阅读 · 2月10日
Do We Need Adam? Surprisingly Strong and Sparse Reinforcement Learning with SGD in LLMs
Arxiv
0+阅读 · 2月7日
Fast Compute for ML Optimization
Arxiv
0+阅读 · 2月15日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top