Adam论文 - 专知

会员服务 ·

Adam

Linearized Bregman Iterations for Sparse Spiking Neural Networks

Arxiv

0+阅读 · 3月17日

Arc Gradient Descent: A Geometrically Motivated Gradient Descent-based Optimiser with Phase-Aware, User-Controlled Step Dynamics (proof-of-concept)

Arxiv

0+阅读 · 3月23日

Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization

Arxiv

0+阅读 · 3月31日

AdamFlow: Adam-based Wasserstein Gradient Flows for Surface Registration in Medical Imaging

Arxiv

0+阅读 · 4月2日

Evolutionary Optimization Trumps Adam Optimization on Embedding Space Exploration

Arxiv

0+阅读 · 4月10日

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

Arxiv

0+阅读 · 3月3日

Towards Understanding Adam Convergence on Highly Degenerate Polynomials

Arxiv

0+阅读 · 3月10日

Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers

Arxiv

0+阅读 · 3月7日

Do We Need Adam? Surprisingly Strong and Sparse Reinforcement Learning with SGD in LLMs

Arxiv

0+阅读 · 2月24日

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Arxiv

0+阅读 · 3月4日

MuonRec: Shifting the Optimizer Paradigm Beyond Adam in Scalable Generative Recommendation

Arxiv

0+阅读 · 2月28日

The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Arxiv

0+阅读 · 3月3日

Understanding Transformer Optimization via Gradient Heterogeneity

Arxiv

0+阅读 · 2月18日

Stein-Rule Shrinkage for Stochastic Gradient Estimation in High Dimensions

Arxiv

0+阅读 · 2月6日

In-Run Data Shapley for Adam Optimizer

Arxiv

0+阅读 · 2月6日

参考链接

微信扫码咨询专知VIP会员