梯度论文 - 专知

会员服务 ·

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

Arxiv

0+阅读 · 2月19日

Estimating Zero-inflated Negative Binomial GAMLSS via a Balanced Gradient Boosting Approach with an Application to Antenatal Care Data from Nigeria

Arxiv

0+阅读 · 2月19日

Explanation Bias is a Product: Revealing the Hidden Lexical and Position Preferences in Post-Hoc Feature Attribution

Arxiv

0+阅读 · 2月19日

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning

Arxiv

0+阅读 · 2月19日

Gradient Testing and Estimation by Comparisons

Arxiv

0+阅读 · 2月19日

MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

Arxiv

0+阅读 · 2月19日

Linear Convergence in Games with Delayed Feedback via Extra Prediction

Linear Convergence in Games with Delayed Feedback via Extra Prediction

Arxiv

0+阅读 · 2月19日

LRT-Diffusion: Calibrated Risk-Aware Guidance for Diffusion Policies

Arxiv

0+阅读 · 2月19日

Ringleader ASGD: The First Asynchronous SGD with Optimal Time Complexity under Data Heterogeneity

Arxiv

0+阅读 · 2月19日

Continuous-Time Value Iteration for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月19日

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Arxiv

0+阅读 · 2月19日

High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models

Arxiv

0+阅读 · 2月17日

Shrinking the Variance: Shrinkage Baselines for Reinforcement Learning with Verifiable Rewards

Arxiv

0+阅读 · 2月18日

Understanding Transformer Optimization via Gradient Heterogeneity

Arxiv

0+阅读 · 2月18日

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

Arxiv

0+阅读 · 2月18日

参考链接

微信扫码咨询专知VIP会员