NPU论文 - 专知

会员服务 ·

NPU

MINCE: Shrinking LLM Evaluation Datasets via Few-Model Monte Carlo Calibration

Arxiv

0+阅读 · 6月22日

Latency Prediction for LLM Inference on NPU Systems

Arxiv

0+阅读 · 6月17日

Ascend-RaBitQ: Heterogeneous NPU-CPU Acceleration of Billion-Scale Similarity Search with 1-bit Quantization

Arxiv

0+阅读 · 6月15日

KATANA: A Fast, Low-Power Mapping of Kalman Filters onto Edge NPUs for Real-Time Tracking

Arxiv

0+阅读 · 6月12日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 6月7日

AcOrch: Accelerating Sampling-based GNN Training under CPU-NPU Heterogeneous Environments

Arxiv

0+阅读 · 5月31日

Efficient On-Device Diffusion LLM Inference with Mobile NPU

Arxiv

0+阅读 · 6月11日

When NPUs Are Not Always Faster: A Stage-Level Analysis of Mobile LLM Inference

Arxiv

0+阅读 · 5月22日

TurboGR: An Accelerated Training System for Large-Scale Generative Recommendation

Arxiv

0+阅读 · 5月13日

Implementation and Optimization of HQC Decoding on NPU-Integrated Devices

Arxiv

0+阅读 · 6月1日

TileFuse: A Fused Mixed-Precision Kernel Library for Efficient Quantized LLM Inference on AMD NPUs

Arxiv

0+阅读 · 6月9日

Energy-Efficient On-Device RAG on a Mobile NPU: System Design and Benchmark on Snapdragon X Elite

Arxiv

0+阅读 · 6月9日

FlexNPU: Transparent NPU Virtualization for Dynamic LLM Prefill-Decode Co-location

Arxiv

0+阅读 · 6月8日

FlexNPU: Transparent NPU Virtualization for Dynamic LLM Prefill-Decode Co-location

Arxiv

0+阅读 · 6月3日

Ascend-RaBitQ: Heterogeneous NPU-CPU Acceleration of Billion-Scale Similarity Search with 1-bit Quantization

Arxiv

0+阅读 · 5月15日

参考链接

微信扫码咨询专知VIP会员