成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
CUDA
关注
20
综合
百科
VIP
热门
动态
论文
精华
Accelerating Intra-Node GPU-to-GPU Communication Through Multi-Path Transfers with CUDA Graphs
Arxiv
0+阅读 · 4月27日
Accelerating Intra-Node GPU-to-GPU Communication Through Multi-Path Transfers with CUDA Graphs
Arxiv
0+阅读 · 4月24日
FlashSpread: IO-Aware GPU Simulation of Non-Markovian Epidemic Dynamics via Kernel Fusion
Arxiv
0+阅读 · 4月30日
FlashSpread: IO-Aware GPU Simulation of Non-Markovian Epidemic Dynamics via Kernel Fusion
Arxiv
0+阅读 · 4月23日
ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing
Arxiv
0+阅读 · 3月31日
JZ-Tree: GPU friendly neighbour search and friends-of-friends with dual tree walks in JAX plus CUDA
Arxiv
0+阅读 · 4月7日
Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs
Arxiv
0+阅读 · 4月25日
VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU
Arxiv
0+阅读 · 5月2日
Hybrid JIT-CUDA Graph Optimization for Low-Latency Large Language Model Inference
Arxiv
0+阅读 · 4月25日
Fast-Vollib: A Fast Implied Volatility Library for Pythonwith PyTorch, JAX, and CUDA Fused-Kernel Backends
Arxiv
0+阅读 · 4月29日
Revealing NVIDIA Closed-Source Driver Command Streams for CPU-GPU Runtime Behavior Insight
Arxiv
0+阅读 · 4月29日
cuGenOpt: A GPU-Accelerated General-Purpose Metaheuristic Framework for Combinatorial Optimization
Arxiv
0+阅读 · 3月19日
Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start
Arxiv
0+阅读 · 4月8日
HPC Containers for EBRAINS: Towards Portable Cross-Domain Software Environment
Arxiv
0+阅读 · 3月12日
CUCo: An Agentic Framework for Compute and Communication Co-design
Arxiv
0+阅读 · 3月2日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top