成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
NPU
关注
0
综合
百科
VIP
热门
动态
论文
精华
FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation
Arxiv
0+阅读 · 3月10日
EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs
Arxiv
0+阅读 · 3月9日
W4A16 Mixed-Precision Matrix Multiplication on Decoupled Architecture: Kernel Design and Memory Bottleneck Analysis for Ascend NPUs
Arxiv
0+阅读 · 3月3日
Mapping Gemma3 onto an Edge Dataflow Architecture
Arxiv
0+阅读 · 2月24日
Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis
Arxiv
0+阅读 · 3月11日
Hexagon-MLIR: An AI Compilation Stack For Qualcomm's Neural Processing Units (NPUs)
Arxiv
0+阅读 · 2月23日
Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats
Arxiv
0+阅读 · 2月13日
TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design
Arxiv
0+阅读 · 2月13日
AscendCraft: Automatic Ascend NPU Kernel Generation via DSL-Guided Transcompilation
Arxiv
0+阅读 · 1月30日
W4A16 Mixed-Precision Matrix Multiplication on Decoupled Architecture: Kernel Design and Memory Bottleneck Analysis for Ascend NPUs
Arxiv
0+阅读 · 1月23日
Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling
Arxiv
0+阅读 · 1月28日
Post-Training Quantization of OpenPangu Models for Efficient Deployment on Atlas A2
Arxiv
0+阅读 · 1月8日
Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC
Arxiv
0+阅读 · 1月6日
Post-Training Quantization of OpenPangu Models for Efficient Deployment on Atlas A2
Arxiv
0+阅读 · 2025年12月29日
TZ-LLM: Protecting On-Device Large Language Models with Arm TrustZone
Arxiv
0+阅读 · 2025年11月17日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top