成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
学习率
关注
0
综合
百科
VIP
热门
动态
论文
精华
High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models
Arxiv
0+阅读 · 2月17日
Explaining Grokking in Transformers through the Lens of Inductive Bias
Arxiv
0+阅读 · 2月6日
Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules
Arxiv
0+阅读 · 2月15日
Step by Step: Adaptive Gradient Descent for Training L-Lipschitz Neural Networks
Arxiv
0+阅读 · 2月6日
Weight Decay may matter more than muP for Learning Rate Transfer in Practice
Arxiv
0+阅读 · 2月13日
Learning Rate Annealing Improves Tuning Robustness in Stochastic Optimization
Arxiv
0+阅读 · 2月16日
Optimal Learning-Rate Schedules under Functional Scaling Laws: Power Decay and Warmup-Stable-Decay
Arxiv
0+阅读 · 2月6日
Optimal Learning-Rate Schedules under Functional Scaling Laws: Power Decay and Warmup-Stable-Decay
Arxiv
0+阅读 · 2月15日
Unsupervised Layer-Wise Dynamic Test Time Adaptation for LLMs
Arxiv
0+阅读 · 2月10日
Dueling over Multiple Pieces of Dessert
Arxiv
0+阅读 · 2月12日
Where Does Warm-Up Come From? Adaptive Scheduling for Norm-Constrained Optimizers
Arxiv
0+阅读 · 2月5日
Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model
Arxiv
0+阅读 · 2月4日
A Proof of Learning Rate Transfer under $μ$P
Arxiv
0+阅读 · 2月2日
Anytime Pretraining: Horizon-Free Learning-Rate Schedules with Weight Averaging
Arxiv
0+阅读 · 2月3日
Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It
Arxiv
0+阅读 · 2月2日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top