成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
推理延迟
关注
0
综合
百科
VIP
热门
动态
论文
精华
A Study on Inference Latency for Vision Transformers on Mobile Devices
Arxiv
0+阅读 · 2月18日
B-DENSE: Branching For Dense Ensemble Network Learning
Arxiv
0+阅读 · 2月17日
Characterize LSM-tree Compaction Performance via On-Device LLM Inference
Arxiv
0+阅读 · 2月13日
STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction
Arxiv
0+阅读 · 2月9日
DFlash: Block Diffusion for Flash Speculative Decoding
Arxiv
0+阅读 · 2月5日
Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States
Arxiv
0+阅读 · 2月4日
Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States
Arxiv
0+阅读 · 2月3日
SQUAD: Scalable Quorum Adaptive Decisions via ensemble of early exit neural networks
Arxiv
0+阅读 · 1月30日
Context Tokens are Anchors: Understanding the Repetition Curse in dMLLMs from an Information Flow Perspective
Arxiv
0+阅读 · 1月28日
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
Arxiv
0+阅读 · 1月14日
LatencyPrism: Online Non-intrusive Latency Sculpting for SLO-Guaranteed LLM Inference
Arxiv
0+阅读 · 1月14日
LatencyPrism: Online Non-intrusive Latency Sculpting for SLO-Guaranteed LLM Inference
Arxiv
0+阅读 · 1月20日
Leveraging LLMs for Efficient and Personalized Smart Home Automation
Arxiv
0+阅读 · 1月8日
GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts
Arxiv
0+阅读 · 1月8日
HGQ: High Granularity Quantization for Real-time Neural Networks on FPGAs
Arxiv
0+阅读 · 2025年12月19日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top