成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
推理延迟
关注
0
综合
百科
VIP
热门
动态
论文
精华
Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning
Arxiv
0+阅读 · 4月7日
Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning
Arxiv
0+阅读 · 4月14日
DeDelayed: Deleting Remote Inference Delay via On-Device Correction
Arxiv
0+阅读 · 4月2日
Communication-Efficient Collaborative LLM Inference over LEO Satellite Networks
Arxiv
0+阅读 · 4月6日
Delay-Aware Diffusion Policy: Bridging the Observation-Execution Gap in Dynamic Tasks
Arxiv
0+阅读 · 3月24日
DRIFT: Harnessing Inherent Fault Tolerance for Efficient and Reliable Diffusion Model Inference
Arxiv
0+阅读 · 4月10日
Hybrid JIT-CUDA Graph Optimization for Low-Latency Large Language Model Inference
Arxiv
0+阅读 · 4月25日
LEXI: Lossless Exponent Coding for Efficient Inter-Chiplet Communication in Hybrid LLMs
Arxiv
0+阅读 · 3月16日
Where Relevance Emerges: A Layer-Wise Study of Internal Attention for Zero-Shot Re-Ranking
Arxiv
0+阅读 · 2月26日
Recursive Belief Vision Language Action Models
Arxiv
0+阅读 · 2月25日
MICE: Minimal Interaction Cross-Encoders for efficient Re-ranking
Arxiv
0+阅读 · 3月3日
A Study on Inference Latency for Vision Transformers on Mobile Devices
Arxiv
0+阅读 · 2月18日
B-DENSE: Branching For Dense Ensemble Network Learning
Arxiv
0+阅读 · 2月17日
Characterize LSM-tree Compaction Performance via On-Device LLM Inference
Arxiv
0+阅读 · 2月13日
STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction
Arxiv
0+阅读 · 2月9日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top