成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
模型推理
关注
1
综合
百科
VIP
热门
动态
论文
精华
The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination
Arxiv
0+阅读 · 4月17日
FlatAttention: Dataflow and Fabric Collectives Co-Optimization for Large Attention-Based Model Inference on Tile-Based Accelerators
Arxiv
0+阅读 · 4月2日
MIST: A Co-Design Framework for Heterogeneous, Multi-Stage LLM Inference
Arxiv
0+阅读 · 4月20日
General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks
Arxiv
0+阅读 · 4月13日
Optimizing Feature Extraction for On-device Model Inference with User Behavior Sequences
Arxiv
0+阅读 · 3月23日
Scaling Multi-Node Mixture-of-Experts Inference Using Expert Activation Patterns
Arxiv
0+阅读 · 4月25日
Hán Dān Xué Bù (Mimicry) or Qīng Chū Yú Lán (Mastery)? A Cognitive Perspective on Reasoning Distillation in Large Language Models
Arxiv
0+阅读 · 4月23日
Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning
Arxiv
0+阅读 · 4月20日
CALVO: Improve Serving Efficiency for LLM Inferences with Intense Network Demands
Arxiv
0+阅读 · 3月22日
Prompt Compression in the Wild: Measuring Latency, Rate Adherence, and Quality for Faster LLM Inference
Arxiv
0+阅读 · 4月3日
Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning
Arxiv
0+阅读 · 4月30日
The Workload-Router-Pool Architecture for LLM Inference Optimization: A Vision Paper from the vLLM Semantic Router Project
Arxiv
0+阅读 · 4月8日
The Workload-Router-Pool Architecture for LLM Inference Optimization: A Vision Paper from the vLLM Semantic Router Project
Arxiv
0+阅读 · 3月22日
Adaptive Layer Selection for Layer-Wise Token Pruning in LLM Inference
Arxiv
0+阅读 · 4月16日
Latent Bridge: Feature Delta Prediction for Efficient Dual-System Vision-Language-Action Model Inference
Arxiv
0+阅读 · 5月4日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top