推理加速论文 - 专知

会员服务 ·

推理加速

AIA: A 16nm Multicore SoC for Approximate Inference Acceleration Exploiting Non-normalized Knuth-Yao Sampling and Inter-Core Register Sharing

Arxiv

0+阅读 · 6月15日

Design Conductor 2.0: An agent builds a TurboQuant inference accelerator in 80 hours

Arxiv

0+阅读 · 5月6日

Fast NF4 Dequantization Kernels for Large Language Model Inference

Arxiv

0+阅读 · 4月2日

Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

Arxiv

0+阅读 · 3月12日

PRIMAL: Processing-In-Memory Based Low-Rank Adaptation for LLM Inference Accelerator

Arxiv

0+阅读 · 1月20日

Head-Aware KV Cache Compression for Efficient Visual Autoregressive Modeling

Arxiv

0+阅读 · 2025年12月7日

H2EAL: Hybrid-Bonding Architecture with Hybrid Sparse Attention for Efficient Long-Context LLM Inference

Arxiv

0+阅读 · 2025年12月8日

参考链接

微信扫码咨询专知VIP会员