ucTrace: A Multi-Layer Profiling Tool for UCX-driven Communication - 专知论文

会员服务 ·

0

分析 · GPU · 分析工具 · 工具 · 传输 ·

ucTrace: A Multi-Layer Profiling Tool for UCX-driven Communication

翻译：ucTrace：面向UCX驱动通信的多层性能分析工具

Emir Gencer,Mohammad Kefah Taha Issa,Ilyas Turimbetov,James D. Trotter,Didem Unat

from arxiv, 11 pages, 8 figures. To appear in the 40th IEEE International Parallel & Distributed Processing Symposium (IPDPS 2026)

UCX is a communication framework that enables low-latency, high-bandwidth communication in HPC systems. With its unified API, UCX facilitates efficient data transfers across multi-node CPU-GPU clusters. UCX is widely used as the transport layer for MPI, particularly in GPU-aware implementations. However, existing profiling tools lack fine-grained communication traces at the UCX level, do not capture transport-layer behavior, or are limited to specific MPI implementations. To address these gaps, we introduce ucTrace, a novel profiler that exposes and visualizes UCX-driven communication in HPC environments. ucTrace provides insights into MPI workflows by profiling message passing at the UCX level, linking operations between hosts and devices (e.g., GPUs and NICs) directly to their originating MPI functions. Through interactive visualizations of process- and device-specific interactions, ucTrace helps system administrators, library and application developers optimize performance and debug communication patterns in large-scale workloads. We demonstrate ucTrace's features through a wide range of experiments including MPI point-to-point behavior under different UCX settings, Allreduce comparisons across MPI libraries, communication analysis of a linear solver, NUMA binding effects, and profiling of GROMACS MD simulations with GPU acceleration at scale. ucTrace is publicly available at https://github.com/ParCoreLab/ucTrace.

翻译：UCX是一种通信框架，可在高性能计算系统中实现低延迟、高带宽的通信。通过其统一API，UCX促进了多节点CPU-GPU集群间的高效数据传输。UCX被广泛用作MPI的传输层，特别是在GPU感知的实现中。然而，现有性能分析工具缺乏UCX层面的细粒度通信追踪，无法捕获传输层行为，或仅限于特定的MPI实现。为弥补这些不足，我们提出了ucTrace——一种在高性能计算环境中揭示并可视化UCX驱动通信的新型性能分析器。ucTrace通过在UCX层面分析消息传递，将主机与设备（如GPU和网卡）间的操作直接关联到其源头的MPI函数，从而深入揭示MPI工作流程。通过进程级和设备级交互式可视化，ucTrace帮助系统管理员、库开发者和应用程序开发者优化大规模工作负载的性能并调试通信模式。我们通过一系列实验展示了ucTrace的功能，包括不同UCX设置下的MPI点对点行为、跨MPI库的Allreduce操作比较、线性求解器的通信分析、NUMA绑定效应，以及大规模GPU加速的GROMACS分子动力学模拟的性能分析。ucTrace已在https://github.com/ParCoreLab/ucTrace 公开提供。

0

相关内容

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

16+阅读 · 2月13日

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

数字孪生互联网是什么？西安交大等最新《数字孪生技术》综述论文，21页pdf全面阐述数字孪生体系结构、赋能技术、安全与隐私与展望

数字孪生互联网是什么？西安交大等最新《数字孪生技术》综述论文，21页pdf全面阐述数字孪生体系结构、赋能技术、安全与隐私与展望

专知会员服务

86+阅读 · 2023年2月2日

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

专知会员服务

21+阅读 · 2022年12月12日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

《6G 可见光通信技术白皮书（2022）》，中国移动通信有限公司研究院

《6G 可见光通信技术白皮书（2022）》，中国移动通信有限公司研究院

专知会员服务

19+阅读 · 2022年3月23日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

5GAA：C-V2X和DSRC的性能对比分析报告

5GAA：C-V2X和DSRC的性能对比分析报告

智能交通技术

11+阅读 · 2019年3月8日

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向5G移动通信系统的D2D可靠多播通信关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

采用大规模分布式基站天线的移动通信系统容量分析与性能优化

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算中数据流应用的动态计算切分技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

PipeWeave: Synergizing Analytical and Learning Models for Unified GPU Performance Prediction

Arxiv

0+阅读 · 4月28日

Accelerating Intra-Node GPU-to-GPU Communication Through Multi-Path Transfers with CUDA Graphs

Arxiv

0+阅读 · 4月27日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 4月23日

On the energy efficiency of sparse matrix computations on multi-GPU clusters

Arxiv

0+阅读 · 4月15日

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Arxiv

0+阅读 · 4月6日

Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Compute-Communication Overlap

Arxiv

0+阅读 · 4月3日

Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Compute-Communication Overlap

Arxiv

0+阅读 · 3月27日

The Big Send-off: Scalable and Performant Collectives for Deep Learning

Arxiv

0+阅读 · 3月15日

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

Arxiv

0+阅读 · 3月5日

Demystifying NCCL: An In-depth Analysis of GPU Communication Protocols and Algorithms

Arxiv

0+阅读 · 3月2日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

0+阅读 · 15分钟前

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

0+阅读 · 17分钟前

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

0+阅读 · 21分钟前

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

0+阅读 · 23分钟前

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

5+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

12+阅读 · 5月29日

相关VIP内容

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

16+阅读 · 2月13日

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

数字孪生互联网是什么？西安交大等最新《数字孪生技术》综述论文，21页pdf全面阐述数字孪生体系结构、赋能技术、安全与隐私与展望

数字孪生互联网是什么？西安交大等最新《数字孪生技术》综述论文，21页pdf全面阐述数字孪生体系结构、赋能技术、安全与隐私与展望

专知会员服务

86+阅读 · 2023年2月2日

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

专知会员服务

21+阅读 · 2022年12月12日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

《6G 可见光通信技术白皮书（2022）》，中国移动通信有限公司研究院

《6G 可见光通信技术白皮书（2022）》，中国移动通信有限公司研究院

专知会员服务

19+阅读 · 2022年3月23日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

相关资讯

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

5GAA：C-V2X和DSRC的性能对比分析报告

5GAA：C-V2X和DSRC的性能对比分析报告

智能交通技术

11+阅读 · 2019年3月8日

相关论文

PipeWeave: Synergizing Analytical and Learning Models for Unified GPU Performance Prediction

Arxiv

0+阅读 · 4月28日

Accelerating Intra-Node GPU-to-GPU Communication Through Multi-Path Transfers with CUDA Graphs

Arxiv

0+阅读 · 4月27日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 4月23日

On the energy efficiency of sparse matrix computations on multi-GPU clusters

Arxiv

0+阅读 · 4月15日

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Arxiv

0+阅读 · 4月6日

Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Compute-Communication Overlap

Arxiv

0+阅读 · 4月3日

Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Compute-Communication Overlap

Arxiv

0+阅读 · 3月27日

The Big Send-off: Scalable and Performant Collectives for Deep Learning

Arxiv

0+阅读 · 3月15日

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

Arxiv

0+阅读 · 3月5日

Demystifying NCCL: An In-depth Analysis of GPU Communication Protocols and Algorithms

Arxiv

0+阅读 · 3月2日

相关基金

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向5G移动通信系统的D2D可靠多播通信关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

采用大规模分布式基站天线的移动通信系统容量分析与性能优化

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算中数据流应用的动态计算切分技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员