PICO: Performance Insights for Collective Operations - 专知论文

会员服务 ·

0

操作 · 算法 · 系统 · 基准 · 端到端 ·

PICO: Performance Insights for Collective Operations

翻译：PICO：集合操作的性能洞察

Saverio Pasqualoni,Tommaso Bonato,Lorenzo Piarulli,Torsten Hoefler,Marco Canini,Daniele De Sensi

Collective operations are cornerstones of both HPC applications and large-scale AI training and inference, yet benchmarking them in a systematic and reproducible way remains difficult on modern systems due to the complexity of their hardware and software stacks. Existing suites primarily report end-to-end timings and offer limited support for controlled algorithm and configuration selection, fine-grained profiling, and capturing the runtime environment. We present PICO (Performance Insights for Collective Operations), an open-source framework that decouples portable experiment setup from platform execution, provides a backend-adaptive parameter selection interface across MPI and NCCL, supplies plain-MPI reference collective implementations, optionally instrumentable, and records the system configuration for reproducible comparisons. Evaluated on three major supercomputers, PICO shows that default collective algorithms and transport settings can be up to $5\times$ slower than the best available choice. It provides diagnostic evidence by isolating topology sensitive algorithmic choices and, through instrumentation, reveals detailed algorithmic breakdowns. To assess end-to-end effects of benchmark-informed tuning and evaluate application-level impacts, we replay open-source LLM training traces in ATLAHS simulator with optimized collective profiles identified by PICO, achieving reductions in training times of up to $44\%$.

翻译：集合操作既是高性能计算应用也是大规模AI训练与推理的基石，然而，由于现代系统的硬件与软件栈复杂性，以系统化且可重复的方式对其进行基准测试仍然困难。现有测试套件主要报告端到端时间，对受控算法与配置选择、细粒度分析以及运行时环境捕获的支持有限。我们提出PICO（集合操作性能洞察），这是一个开源框架，它将可移植实验设置与平台执行解耦，提供跨MPI和NCCL的后端自适应参数选择接口，提供可选的纯MPI参考集合实现（可插桩），并记录系统配置以实现可重复比较。在三大超级计算机上的评估表明，默认集合算法和传输设置可能比最佳可用选择慢高达$5\times$。PICO通过隔离拓扑敏感的算法选择提供诊断证据，并通过插桩揭示详细的算法分解。为评估基准调优的端到端效果以及应用级影响，我们在ATLAHS模拟器中重放开源LLM训练轨迹，并采用PICO识别出的优化集合配置，实现了高达$44\%$的训练时间缩减。

0

相关内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

专知会员服务

25+阅读 · 1月16日

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

专知会员服务

56+阅读 · 2025年11月10日

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

专知会员服务

26+阅读 · 2025年8月28日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

47+阅读 · 2025年3月20日

ChatGPT核心技术：强化学习PPO算法

ChatGPT核心技术：强化学习PPO算法

专知会员服务

160+阅读 · 2023年2月13日

网络丢包对联邦学习影响很大？中科大数据研究中心团队成果《面向穿戴设备的公平高效联邦学习算法及应用》发表于UbiComp

网络丢包对联邦学习影响很大？中科大数据研究中心团队成果《面向穿戴设备的公平高效联邦学习算法及应用》发表于UbiComp

专知会员服务

16+阅读 · 2022年5月8日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

【PID】PID控制中P、I、D参数的作用究竟是什么？ PID控制算法精华和参数整定三大招

【PID】PID控制中P、I、D参数的作用究竟是什么？ PID控制算法精华和参数整定三大招

产业智能官

18+阅读 · 2020年6月1日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

量子位

19+阅读 · 2019年1月12日

【自动化】详解PID调节的基本概念、参数与调试方法，清晰易懂！

【自动化】详解PID调节的基本概念、参数与调试方法，清晰易懂！

产业智能官

10+阅读 · 2018年12月20日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【CPS】社会物理信息系统（CPSS）及其典型应用

【CPS】社会物理信息系统（CPSS）及其典型应用

产业智能官

16+阅读 · 2018年9月18日

【pix4D篇】——Pix4D软件介绍

【pix4D篇】——Pix4D软件介绍

无人机

18+阅读 · 2018年8月1日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

339+阅读 · 2017年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

PhyCo: Learning Controllable Physical Priors for Generative Motion

Arxiv

0+阅读 · 4月30日

DataClaw: An Autonomous Data Agent with Instant Messaging Integration

Arxiv

0+阅读 · 4月27日

POLAR-PIC: A Holistic Framework for Matrixized PIC with Co-Designed Compute, Layout, and Communication

Arxiv

0+阅读 · 4月21日

Randomness as Reference: Benchmark Metric for Optimization in Engineering

Arxiv

0+阅读 · 4月16日

Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection

Arxiv

0+阅读 · 4月15日

Graph-PiT: Enhancing Structural Coherence in Part-Based Image Synthesis via Graph Priors

Arxiv

0+阅读 · 4月7日

InsightBoard: An Interactive Multi-Metric Visualization and Fairness Analysis Plugin for TensorBoard

Arxiv

0+阅读 · 4月2日

exaCB: Reproducible Continuous Benchmark Collections at Scale Leveraging an Incremental Approach

Arxiv

0+阅读 · 3月23日

COINBench: Moving Beyond Individual Perspectives to Collective Intent Understanding

Arxiv

0+阅读 · 3月22日

CoInfra: A Large-Scale Cooperative Infrastructure Perception System and Dataset for Vehicle-Infrastructure Cooperation in Adverse Weather

Arxiv

0+阅读 · 3月20日

VIP会员

文章信息

相关主题

最新内容

现代战争的隐蔽系统：伊朗战争十大启示

现代战争的隐蔽系统：伊朗战争十大启示

专知会员服务

0+阅读 · 今天3:58

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

3+阅读 · 6月26日

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

4+阅读 · 6月26日

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

12+阅读 · 6月26日

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

5+阅读 · 6月26日

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

4+阅读 · 6月26日

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

3+阅读 · 6月26日

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

9+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

专知会员服务

25+阅读 · 1月16日

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

专知会员服务

56+阅读 · 2025年11月10日

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

专知会员服务

26+阅读 · 2025年8月28日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

47+阅读 · 2025年3月20日

ChatGPT核心技术：强化学习PPO算法

ChatGPT核心技术：强化学习PPO算法

专知会员服务

160+阅读 · 2023年2月13日

网络丢包对联邦学习影响很大？中科大数据研究中心团队成果《面向穿戴设备的公平高效联邦学习算法及应用》发表于UbiComp

网络丢包对联邦学习影响很大？中科大数据研究中心团队成果《面向穿戴设备的公平高效联邦学习算法及应用》发表于UbiComp

专知会员服务

16+阅读 · 2022年5月8日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

无人机自主控制与人工智能：系统性综述

现代战争的隐蔽系统：伊朗战争十大启示

GNN跨域综述：从消息传递到图基础模型

相关资讯

【PID】PID控制中P、I、D参数的作用究竟是什么？ PID控制算法精华和参数整定三大招

【PID】PID控制中P、I、D参数的作用究竟是什么？ PID控制算法精华和参数整定三大招

产业智能官

18+阅读 · 2020年6月1日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

量子位

19+阅读 · 2019年1月12日

【自动化】详解PID调节的基本概念、参数与调试方法，清晰易懂！

【自动化】详解PID调节的基本概念、参数与调试方法，清晰易懂！

产业智能官

10+阅读 · 2018年12月20日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【CPS】社会物理信息系统（CPSS）及其典型应用

【CPS】社会物理信息系统（CPSS）及其典型应用

产业智能官

16+阅读 · 2018年9月18日

【pix4D篇】——Pix4D软件介绍

【pix4D篇】——Pix4D软件介绍

无人机

18+阅读 · 2018年8月1日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

相关论文

PhyCo: Learning Controllable Physical Priors for Generative Motion

Arxiv

0+阅读 · 4月30日

DataClaw: An Autonomous Data Agent with Instant Messaging Integration

Arxiv

0+阅读 · 4月27日

POLAR-PIC: A Holistic Framework for Matrixized PIC with Co-Designed Compute, Layout, and Communication

Arxiv

0+阅读 · 4月21日

Randomness as Reference: Benchmark Metric for Optimization in Engineering

Arxiv

0+阅读 · 4月16日

Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection

Arxiv

0+阅读 · 4月15日

Graph-PiT: Enhancing Structural Coherence in Part-Based Image Synthesis via Graph Priors

Arxiv

0+阅读 · 4月7日

InsightBoard: An Interactive Multi-Metric Visualization and Fairness Analysis Plugin for TensorBoard

Arxiv

0+阅读 · 4月2日

exaCB: Reproducible Continuous Benchmark Collections at Scale Leveraging an Incremental Approach

Arxiv

0+阅读 · 3月23日

COINBench: Moving Beyond Individual Perspectives to Collective Intent Understanding

Arxiv

0+阅读 · 3月22日

CoInfra: A Large-Scale Cooperative Infrastructure Perception System and Dataset for Vehicle-Infrastructure Cooperation in Adverse Weather

Arxiv

0+阅读 · 3月20日

相关基金

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

339+阅读 · 2017年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员