DMRlib: Easy-coding and Efficient Resource Management for Job Malleability - 专知论文

会员服务 ·

0

可塑性 · 资源管理 · 资源分配策略 · 资源利用率 · 编程 ·

DMRlib: Easy-coding and Efficient Resource Management for Job Malleability

翻译：DMRlib：面向作业可塑性的易编码高效资源管理

Sergio Iserte,Rafael Mayo,Enrique S. Quintana-Ortí,Antonio J. Peña

Process malleability has proved to have a highly positive impact on the resource utilization and global productivity in data centers compared with the conventional static resource allocation policy. However, the non-negligible additional development effort this solution imposes has constrained its adoption by the scientific programming community. In this work, we present DMRlib, a library designed to offer the global advantages of process malleability while providing a minimalist MPI-like syntax. The library includes a series of predefined communication patterns that greatly ease the development of malleable applications. In addition, we deploy several scenarios to demonstrate the positive impact of process malleability featuring different scalability patterns. Concretely, we study two job submission modes (rigid and moldable) in order to identify the best-case scenarios for malleability using metrics such as resource allocation rate, completed jobs per second, and energy consumption. The experiments prove that our elastic approach may improve global throughput by a factor higher than 3x compared to the traditional workloads of non-malleable jobs.

翻译：进程可塑性已被证明，与传统的静态资源分配策略相比，能够对数据中心的资源利用率和全局生产力产生显著的积极影响。然而，该方案所引入的不可忽略的额外开发工作量，限制了其在科学编程社区中的采用。在本工作中，我们提出了 DMRlib，一个旨在提供进程可塑性的全局优势，同时具有极简 MPI 风格语法的库。该库包含一系列预定义的通信模式，极大地简化了可塑性应用的开发。此外，我们部署了若干场景，以展示具有不同可扩展性模式的进程可塑性的积极影响。具体而言，我们研究了两种作业提交模式（刚性作业和可塑作业），以使用资源分配率、每秒完成的作业数和能量消耗等指标来识别可塑性的最佳应用场景。实验证明，与传统的非可塑作业负载相比，我们的弹性方法可将全局吞吐量提升超过 3 倍。

0

相关内容

可塑性

《MERLIN：面向推广资源与研究的国家数据管理平台》报告

《MERLIN：面向推广资源与研究的国家数据管理平台》报告

专知会员服务

17+阅读 · 2025年12月27日

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

38+阅读 · 2025年1月5日

【AAAI2023教程】值得信赖和负责任的AI:公平性、可解释性、透明度及其相互作用，200+Slides

【AAAI2023教程】值得信赖和负责任的AI:公平性、可解释性、透明度及其相互作用，200+Slides

专知会员服务

33+阅读 · 2023年2月9日

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

专知会员服务

41+阅读 · 2022年12月2日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

XAI实用技术有哪些？普渡大学SIGMOD2022最新《可解释人工智能》教程，130+PPT阐述XAI的基础、应用、机会，附视频

XAI实用技术有哪些？普渡大学SIGMOD2022最新《可解释人工智能》教程，130+PPT阐述XAI的基础、应用、机会，附视频

专知会员服务

95+阅读 · 2022年6月30日

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

专知会员服务

29+阅读 · 2020年6月30日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

多任务学习(Multitask-Learning)相关资料、经典论文、开源代码整理分享

多任务学习(Multitask-Learning)相关资料、经典论文、开源代码整理分享

深度学习与NLP

45+阅读 · 2019年10月22日

机器学习可解释性工具箱XAI

机器学习可解释性工具箱XAI

专知

11+阅读 · 2019年2月8日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

中国科学院自动化研究所

15+阅读 · 2018年1月23日

教程 | 如何优雅而高效地使用Matplotlib实现数据可视化

教程 | 如何优雅而高效地使用Matplotlib实现数据可视化

机器之心

10+阅读 · 2018年1月16日

高速率、高频谱效率码分多址系统地址码设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式工业自动化系统可重构混合计算模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑分布式电源和多样性负荷主动特性的复杂配电系统动态随机规划模型与方法

国家自然科学基金

0+阅读 · 2014年12月31日

多种分布式可控资源参与电力系统运行优化的调控策略与市场机制研究

国家自然科学基金

2+阅读 · 2014年12月31日

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Arxiv

0+阅读 · 4月21日

Raiven: LLM-Based Visualization Authoring via Domain-Specific Language Mediation

Arxiv

0+阅读 · 4月11日

DMax: Aggressive Parallel Decoding for dLLMs

Arxiv

0+阅读 · 4月9日

Green-LLM: Optimal Workload Allocation for Environmentally-Aware Distributed Inference

Arxiv

0+阅读 · 4月8日

BDI-Kit Demo: A Toolkit for Programmable and Conversational Data Harmonization

Arxiv

0+阅读 · 4月7日

Efficiently Reproducing Distributed Workflows in Notebook-based Systems

Arxiv

0+阅读 · 3月27日

XBRLTagRec: Domain-Specific Fine-Tuning and Zero-Shot Re-Ranking with LLMs for Extreme Financial Numeral Labeling

Arxiv

0+阅读 · 3月26日

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Arxiv

0+阅读 · 3月25日

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Arxiv

0+阅读 · 3月18日

SplitLight: An Exploratory Toolkit for Recommender Systems Datasets and Splits

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

资源分配策略

资源利用率

最新内容

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

2+阅读 · 今天12:37

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

专知会员服务

2+阅读 · 今天11:55

乌克兰战场背后的新武器

乌克兰战场背后的新武器

专知会员服务

4+阅读 · 今天4:55

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

10+阅读 · 今天2:29

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

专知会员服务

6+阅读 · 今天2:06

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

10+阅读 · 今天1:54

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

专知会员服务

9+阅读 · 今天1:51

美国陆军航空兵：以愿景引领转型

美国陆军航空兵：以愿景引领转型

专知会员服务

6+阅读 · 今天1:38

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

专知会员服务

4+阅读 · 6月11日

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

5+阅读 · 6月11日

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

专知会员服务

8+阅读 · 6月11日

《多域战场上反制小型无人机系统》150页

《多域战场上反制小型无人机系统》150页

专知会员服务

16+阅读 · 6月11日

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

专知会员服务

5+阅读 · 6月11日

战场人工智能：增强陆地作战能力的发现与要求

战场人工智能：增强陆地作战能力的发现与要求

专知会员服务

3+阅读 · 6月11日

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

专知会员服务

15+阅读 · 6月11日

相关VIP内容

《MERLIN：面向推广资源与研究的国家数据管理平台》报告

《MERLIN：面向推广资源与研究的国家数据管理平台》报告

专知会员服务

17+阅读 · 2025年12月27日

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

38+阅读 · 2025年1月5日

【AAAI2023教程】值得信赖和负责任的AI:公平性、可解释性、透明度及其相互作用，200+Slides

【AAAI2023教程】值得信赖和负责任的AI:公平性、可解释性、透明度及其相互作用，200+Slides

专知会员服务

33+阅读 · 2023年2月9日

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

专知会员服务

41+阅读 · 2022年12月2日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

XAI实用技术有哪些？普渡大学SIGMOD2022最新《可解释人工智能》教程，130+PPT阐述XAI的基础、应用、机会，附视频

XAI实用技术有哪些？普渡大学SIGMOD2022最新《可解释人工智能》教程，130+PPT阐述XAI的基础、应用、机会，附视频

专知会员服务

95+阅读 · 2022年6月30日

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

专知会员服务

29+阅读 · 2020年6月30日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

乌克兰战场背后的新武器

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

多任务学习(Multitask-Learning)相关资料、经典论文、开源代码整理分享

多任务学习(Multitask-Learning)相关资料、经典论文、开源代码整理分享

深度学习与NLP

45+阅读 · 2019年10月22日

机器学习可解释性工具箱XAI

机器学习可解释性工具箱XAI

专知

11+阅读 · 2019年2月8日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

中国科学院自动化研究所

15+阅读 · 2018年1月23日

教程 | 如何优雅而高效地使用Matplotlib实现数据可视化

教程 | 如何优雅而高效地使用Matplotlib实现数据可视化

机器之心

10+阅读 · 2018年1月16日

相关论文

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Arxiv

0+阅读 · 4月21日

Raiven: LLM-Based Visualization Authoring via Domain-Specific Language Mediation

Arxiv

0+阅读 · 4月11日

DMax: Aggressive Parallel Decoding for dLLMs

Arxiv

0+阅读 · 4月9日

Green-LLM: Optimal Workload Allocation for Environmentally-Aware Distributed Inference

Arxiv

0+阅读 · 4月8日

BDI-Kit Demo: A Toolkit for Programmable and Conversational Data Harmonization

Arxiv

0+阅读 · 4月7日

Efficiently Reproducing Distributed Workflows in Notebook-based Systems

Arxiv

0+阅读 · 3月27日

XBRLTagRec: Domain-Specific Fine-Tuning and Zero-Shot Re-Ranking with LLMs for Extreme Financial Numeral Labeling

Arxiv

0+阅读 · 3月26日

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Arxiv

0+阅读 · 3月25日

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Arxiv

0+阅读 · 3月18日

SplitLight: An Exploratory Toolkit for Recommender Systems Datasets and Splits

Arxiv

0+阅读 · 2月22日

相关基金

高速率、高频谱效率码分多址系统地址码设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式工业自动化系统可重构混合计算模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑分布式电源和多样性负荷主动特性的复杂配电系统动态随机规划模型与方法

国家自然科学基金

0+阅读 · 2014年12月31日

多种分布式可控资源参与电力系统运行优化的调控策略与市场机制研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员