Computation and communication in distributed LLM training and inference are traditionally optimized in isolation; expert-crafted systems such as DeepEP, FLUX, and TokenWeave show the potential of co-design but require deep systems expertise and hardware-specific tuning; CUCo is an agentic framework that automates compute-communication co-design of CUDA kernels by combining a structured design-space formalization with a correctness-first fast-path agent for reliable baselines and an evolution-driven slow-path agent for high-performance strategies, achieving up to 1.57x speedup across four multi-GPU workloads and discovering a two-stream overlap strategy on a DeepSeek-V3 MoE layer that hides dispatch behind local compute at an LLM inference cost under $10 per workload.


翻译:分布式大语言模型训练与推理中的计算和通信传统上是孤立优化,而 DeepEP、FLUX 和 TokenWeave 等专家级系统虽展示了协同设计的潜力,但需深厚的系统专业知识与硬件特化调优。CUCo 是一个智能体框架,通过将结构化的设计空间形式化与两种路径相结合——基于正确性优先的快速路径智能体用于生成可靠基线,以及基于演化驱动的慢速路径智能体用于探索高性能策略——自动完成 CUDA 内核的计算-通信协同设计,在四个多 GPU 工作负载上实现最高 1.57 倍加速,并在 DeepSeek-V3 MoE 层中发现了一种双流重叠策略——该策略将 Token 分发隐藏在本地计算之后——每个工作负载的 LLM 推理成本低于 10 美元。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
AgentOps综述:智能体系统运维框架
专知会员服务
19+阅读 · 6月4日
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
多循环嵌套的大语言模型多智能体指挥控制过程
专知会员服务
44+阅读 · 2025年1月19日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Arxiv
0+阅读 · 6月1日
Arxiv
0+阅读 · 5月18日
Arxiv
11+阅读 · 2023年8月28日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
AgentOps综述:智能体系统运维框架
专知会员服务
19+阅读 · 6月4日
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
多循环嵌套的大语言模型多智能体指挥控制过程
专知会员服务
44+阅读 · 2025年1月19日
相关资讯
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员