成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
动量
关注
57
动量方法 (Polyak, 1964) 旨在加速学习,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。 动量算法积累了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。
综合
百科
VIP
热门
动态
论文
精华
The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks
Arxiv
0+阅读 · 2月18日
High-dimensional limit theorems for SGD: Momentum and Adaptive Step-sizes
Arxiv
0+阅读 · 2月18日
Logarithmic-time Schedules for Scaling Language Models with Momentum
Arxiv
0+阅读 · 2月18日
Systematic Trend-Following with Adaptive Portfolio Construction: Enhancing Risk-Adjusted Alpha in Cryptocurrency Markets
Arxiv
0+阅读 · 2月12日
Multi-Momentum Observer Contact Estimation for Bipedal Robots
Arxiv
0+阅读 · 2月10日
Cautious Optimizers: Improving Training with One Line of Code
Arxiv
0+阅读 · 2月15日
Complexity of normalized stochastic first-order methods with momentum under heavy-tailed noise
Arxiv
0+阅读 · 2月11日
Momentum LMS Theory beyond Stationarity: Stability, Tracking, and Regret
Arxiv
0+阅读 · 2月12日
C-MOP: Integrating Momentum and Boundary-Aware Clustering for Enhanced Prompt Evolution
Arxiv
0+阅读 · 2月11日
Explore Intrinsic Geometry for Query-based Tiny and Oriented Object Detector with Momentum-based Bipartite Matching
Arxiv
0+阅读 · 2月14日
Impacts of Generative AI on Agile Teams' Productivity: A Multi-Case Longitudinal Study
Arxiv
0+阅读 · 2月14日
RanSOM: Second-Order Momentum with Randomized Scaling for Constrained and Unconstrained Optimization
Arxiv
0+阅读 · 2月6日
Momentum Attention: The Physics of In-Context Learning and Spectral Forensics for Mechanistic Interpretability
Arxiv
0+阅读 · 2月7日
Logarithmic-time Schedules for Scaling Language Models with Momentum
Arxiv
0+阅读 · 2月5日
TEON: Tensorized Orthonormalization Beyond Layer-Wise Muon for Large Language Model Pre-Training
Arxiv
0+阅读 · 2月2日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top