成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
模型服务
关注
0
综合
百科
VIP
热门
动态
论文
精华
Serving Chain-structured Jobs with Large Memory Footprints with Application to Large Foundation Model Serving
Arxiv
0+阅读 · 4月16日
CALVO: Improve Serving Efficiency for LLM Inferences with Intense Network Demands
Arxiv
0+阅读 · 3月22日
Cache Your Prompt When It's Green: Carbon-Aware Caching for Large Language Model Serving
Arxiv
0+阅读 · 4月11日
Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving
Arxiv
0+阅读 · 4月29日
Accuracy Is Speed: Towards Long-Context-Aware Routing for Distributed LLM Serving
Arxiv
0+阅读 · 4月17日
TokenDance: Scaling Multi-Agent LLM Serving via Collective KV Cache Sharing
Arxiv
0+阅读 · 4月3日
Rethinking Network Topologies for Cost-Effective Mixture-of-Experts LLM Serving
Arxiv
0+阅读 · 4月30日
Quantamination: Dynamic Quantization Leaks Your Data Across the Batch
Arxiv
0+阅读 · 4月29日
StepCache: Step-Level Reuse with Lightweight Verification and Selective Patching for LLM Serving
Arxiv
0+阅读 · 3月24日
Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start
Arxiv
0+阅读 · 4月8日
Autopoiesis: A Self-Evolving System Paradigm for LLM Serving Under Runtime Dynamics
Arxiv
0+阅读 · 4月8日
FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation
Arxiv
0+阅读 · 4月22日
Multi-stage Flow Scheduling for LLM Serving
Arxiv
0+阅读 · 3月18日
Serving Hybrid LLM Loads with SLO Guarantees Using CPU-GPU Attention Piggybacking
Arxiv
0+阅读 · 3月17日
Efficient LLM Serving for Agentic Workflows: A Data Systems Perspective
Arxiv
0+阅读 · 3月17日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top