推理延迟论文 - 专知

会员服务 ·

推理延迟

Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

Arxiv

0+阅读 · 4月7日

Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

Arxiv

0+阅读 · 4月14日

DeDelayed: Deleting Remote Inference Delay via On-Device Correction

Arxiv

0+阅读 · 4月2日

Communication-Efficient Collaborative LLM Inference over LEO Satellite Networks

Arxiv

0+阅读 · 4月6日

Delay-Aware Diffusion Policy: Bridging the Observation-Execution Gap in Dynamic Tasks

Arxiv

0+阅读 · 3月24日

DRIFT: Harnessing Inherent Fault Tolerance for Efficient and Reliable Diffusion Model Inference

Arxiv

0+阅读 · 4月10日

Hybrid JIT-CUDA Graph Optimization for Low-Latency Large Language Model Inference

Arxiv

0+阅读 · 4月25日

LEXI: Lossless Exponent Coding for Efficient Inter-Chiplet Communication in Hybrid LLMs

Arxiv

0+阅读 · 3月16日

Where Relevance Emerges: A Layer-Wise Study of Internal Attention for Zero-Shot Re-Ranking

Arxiv

0+阅读 · 2月26日

Recursive Belief Vision Language Action Models

Arxiv

0+阅读 · 2月25日

MICE: Minimal Interaction Cross-Encoders for efficient Re-ranking

Arxiv

0+阅读 · 3月3日

A Study on Inference Latency for Vision Transformers on Mobile Devices

Arxiv

0+阅读 · 2月18日

B-DENSE: Branching For Dense Ensemble Network Learning

Arxiv

0+阅读 · 2月17日

Characterize LSM-tree Compaction Performance via On-Device LLM Inference

Arxiv

0+阅读 · 2月13日

STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction

Arxiv

0+阅读 · 2月9日

参考链接

微信扫码咨询专知VIP会员