成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
推理加速
关注
0
综合
百科
VIP
热门
动态
论文
精华
AIA: A 16nm Multicore SoC for Approximate Inference Acceleration Exploiting Non-normalized Knuth-Yao Sampling and Inter-Core Register Sharing
Arxiv
0+阅读 · 6月15日
Design Conductor 2.0: An agent builds a TurboQuant inference accelerator in 80 hours
Arxiv
0+阅读 · 5月6日
Fast NF4 Dequantization Kernels for Large Language Model Inference
Arxiv
0+阅读 · 4月2日
Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability
Arxiv
0+阅读 · 3月12日
PRIMAL: Processing-In-Memory Based Low-Rank Adaptation for LLM Inference Accelerator
Arxiv
0+阅读 · 1月20日
Head-Aware KV Cache Compression for Efficient Visual Autoregressive Modeling
Arxiv
0+阅读 · 2025年12月7日
H2EAL: Hybrid-Bonding Architecture with Hybrid Sparse Attention for Efficient Long-Context LLM Inference
Arxiv
0+阅读 · 2025年12月8日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top