成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
Softmax
关注
0
综合
百科
VIP
热门
动态
论文
精华
Why Softmax Attention Outperforms Linear Attention
Arxiv
0+阅读 · 3月13日
Rethinking Attention: Polynomial Alternatives to Softmax in Transformers
Arxiv
0+阅读 · 3月13日
The Counting Power of Transformers
Arxiv
0+阅读 · 3月2日
HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation
Arxiv
0+阅读 · 2月20日
First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints
Arxiv
0+阅读 · 3月6日
Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions
Arxiv
0+阅读 · 3月6日
Long-Context Generalization with Sparse Attention
Arxiv
0+阅读 · 3月2日
Spilled Energy in Large Language Models
Arxiv
0+阅读 · 2月25日
Probability Bounding: Post-Hoc Calibration via Box-Constrained Softmax
Arxiv
0+阅读 · 2月23日
SOLAR: SVD-Optimized Lifelong Attention for Recommendation
Arxiv
0+阅读 · 3月3日
2Mamba2Furious: Linear in Complexity, Competitive in Accuracy
Arxiv
0+阅读 · 2月19日
DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition
Arxiv
0+阅读 · 2月19日
High entropy leads to symmetry equivariant policies in Dec-POMDPs
Arxiv
0+阅读 · 2月17日
HLA: Hadamard Linear Attention
Arxiv
0+阅读 · 2月12日
ABI: A tightly integrated, unified, sparsity-aware, reconfigurable, compute near-register file/cache GPU architecture with light-weight softmax for deep learning, linear algebra, and Ising compute
Arxiv
0+阅读 · 2月15日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top