成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
模型服务
关注
0
综合
百科
VIP
热门
动态
论文
精华
MorphServe: Efficient and Workload-Aware LLM Serving via Runtime Quantized Layer Swapping and KV Cache Resizing
Arxiv
0+阅读 · 1月7日
HADIS: Hybrid Adaptive Diffusion Model Serving for Efficient Text-to-Image Generation
Arxiv
0+阅读 · 1月5日
Joint Encoding of KV-Cache Blocks for Scalable LLM Serving
Arxiv
0+阅读 · 1月6日
Revati: Transparent GPU-Free Time-Warp Emulation for LLM Serving
Arxiv
0+阅读 · 1月1日
Nightjar: Dynamic Adaptive Speculative Decoding for Large Language Models Serving
Arxiv
0+阅读 · 2025年12月27日
ODMA: On-Demand Memory Allocation Framework for LLM Serving on LPDDR-Class Accelerators
Arxiv
0+阅读 · 2025年12月29日
Taming the Memory Footprint Crisis: System Design for Production Diffusion LLM Serving
Arxiv
0+阅读 · 2025年12月18日
JITServe: SLO-aware LLM Serving with Imprecise Request Information
Arxiv
0+阅读 · 2025年12月22日
TraCT: Disaggregated LLM Serving with CXL Shared Memory KV Cache at Rack-Scale
Arxiv
0+阅读 · 2025年12月20日
DSD: A Distributed Speculative Decoding Solution for Edge-Cloud Agile Large Model Serving
Arxiv
0+阅读 · 2025年11月26日
DSD: A Distributed Speculative Decoding Solution for Edge-Cloud Agile Large Model Serving
Arxiv
0+阅读 · 2025年12月1日
Lethe: Layer- and Time-Adaptive KV Cache Pruning for Reasoning-Intensive LLM Serving
Arxiv
0+阅读 · 2025年12月14日
SIMPLE: Disaggregating Sampling from GPU Inference into a Decision Plane for Faster Distributed LLM Serving
Arxiv
0+阅读 · 2025年11月30日
MEPIC: Memory Efficient Position Independent Caching for LLM Serving
Arxiv
0+阅读 · 2025年12月18日
Orders in Chaos: Enhancing Large-Scale MoE LLM Serving with Data Movement Forecasting
Arxiv
0+阅读 · 2025年12月5日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top