DaggerFFT: A Distributed FFT Framework Using Task Scheduling in Julia - 专知论文

会员服务 ·

0

FFT · 调度 · 动态调度 · 系统 · 异构 ·

DaggerFFT: A Distributed FFT Framework Using Task Scheduling in Julia

翻译：DaggerFFT：基于Julia任务调度的分布式FFT框架

Sana Taghipour Anvari,Julian Samaroo,Matin Raayai Ardakani,David Kaeli

The Fast Fourier Transform (FFT) is a fundamental numerical technique with widespread application in a range of scientific problems. As scientific simulations attempt to exploit exascale systems, there has been a growing demand for distributed FFT algorithms that can effectively utilize modern heterogeneous high-performance computing (HPC) systems. Conventional FFT algorithms commonly encounter performance bottlenecks, especially when run on heterogeneous platforms. Most distributed FFT approaches rely on static task distribution and require synchronization barriers, limiting scalability and impacting overall resource utilization. In this paper we present DaggerFFT, a distributed FFT framework, developed in Julia, that treats highly parallel FFT computations as a dynamically scheduled task graph. Each FFT stage operates on a separately defined distributed array. FFT operations are expressed as DTasks operating on pencil or slab partitioned DArrays. Each FFT stage owns its own DArray, and the runtime assigns DTasks across devices using Dagger's dynamic scheduler that uses work stealing. We demonstrate how DaggerFFT's dynamic scheduler can outperform state-of-the-art distributed FFT libraries on both CPU and GPU backends, achieving up to a 2.6x speedup on CPU clusters and up to a 1.35x speedup on GPU clusters. We have integrated DaggerFFT into Oceananigans.jl, a geophysical fluid dynamics framework, demonstrating that high-level, task-based runtimes can deliver both superior performance and modularity in large-scale, real-world simulations.

翻译：快速傅里叶变换（FFT）是一种基础数值技术，广泛应用于各类科学问题中。随着科学模拟试图利用百亿亿次计算系统，对能够有效利用现代异构高性能计算（HPC）系统的分布式FFT算法的需求日益增长。传统的FFT算法通常遇到性能瓶颈，尤其是在异构平台上运行时。大多数分布式FFT方法依赖于静态任务分配并需要同步屏障，这限制了可扩展性并影响了整体资源利用率。本文提出了DaggerFFT，一个用Julia开发的分布式FFT框架，它将高度并行的FFT计算视为动态调度的任务图。每个FFT阶段在独立定义的分布式数组上运行。FFT操作被表示为在铅笔或平板分区DArray上运行的DTask。每个FFT阶段拥有自己的DArray，运行时使用Dagger的动态调度器（采用工作窃取策略）将DTask分配到不同设备上。我们展示了DaggerFFT的动态调度器如何在CPU和GPU后端上优于最先进的分布式FFT库，在CPU集群上实现了高达2.6倍的加速，在GPU集群上实现了高达1.35倍的加速。我们已将DaggerFFT集成到地球物理流体动力学框架Oceananigans.jl中，证明了高层次、基于任务的运行时能够在大规模实际模拟中同时提供卓越的性能和模块化。

0

相关内容

FFT

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

14+阅读 · 2025年11月14日

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

专知会员服务

15+阅读 · 2025年6月22日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

专知会员服务

61+阅读 · 2023年2月4日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【第十届迪拜国际空军首长会议】《空战中的分布式指挥和控制：空战管理和任务指挥的启示》，英国皇家国防安全联合军种研究所

【第十届迪拜国际空军首长会议】《空战中的分布式指挥和控制：空战管理和任务指挥的启示》，英国皇家国防安全联合军种研究所

专知会员服务

157+阅读 · 2022年4月20日

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

专知会员服务

77+阅读 · 2021年8月18日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

专知

14+阅读 · 2020年8月7日

分布式核心技术知识图谱，带走不谢

分布式核心技术知识图谱，带走不谢

架构师之路

12+阅读 · 2019年9月23日

美团：基于跨平台框架Flutter的动态化平台建设

美团：基于跨平台框架Flutter的动态化平台建设

前端之巅

14+阅读 · 2019年6月17日

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

泡泡机器人SLAM

11+阅读 · 2019年5月8日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

再谈变分自编码器VAE：从贝叶斯观点出发

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

GAFT：一个使用 Python 实现的遗传算法框架

GAFT：一个使用 Python 实现的遗传算法框架

Python开发者

10+阅读 · 2017年8月1日

Caffe 深度学习框架上手教程

Caffe 深度学习框架上手教程

黑龙江大学自然语言处理实验室

14+阅读 · 2016年6月12日

分层异构网络面向视频流的绿色节能通信研究

国家自然科学基金

6+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算的动态分布式多目标粒子群算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

奇异耦合网络的动力学分析与控制

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

任意网络中的可分数据处理研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知技术的分层异构网络能效分析与资源分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于生物网络的高维多目标算法及其在分布式调度中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Hemlet: A Heterogeneous Compute-in-Memory Chiplet Architecture for Vision Transformers with Group-Level Parallelism

Arxiv

0+阅读 · 2月9日

DAVE: Distribution-aware Attribution via ViT Gradient Decomposition

Arxiv

0+阅读 · 2月6日

InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning

Arxiv

0+阅读 · 1月30日

BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning

Arxiv

0+阅读 · 1月30日

FAIRFORMER: A transformer architecture for discrete fair division

Arxiv

0+阅读 · 1月29日

VersaQ-3D: A Reconfigurable Accelerator Enabling Feed-Forward and Generalizable 3D Reconstruction via Versatile Quantization

Arxiv

0+阅读 · 1月28日

@NTT: Algorithm-Targeted NTT hardware acceleration via Design-Time Constant Optimization

Arxiv

0+阅读 · 1月25日

PatchEAD: Unifying Industrial Visual Prompting Frameworks for Patch-Exclusive Anomaly Detection

Arxiv

0+阅读 · 1月22日

Split-and-Conquer: Distributed Factor Modeling for High-Dimensional Matrix-Variate Time Series

Arxiv

0+阅读 · 1月16日

SPGD: Steepest Perturbed Gradient Descent Optimization

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

专知会员服务

2+阅读 · 今天3:36

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

专知会员服务

1+阅读 · 今天3:23

探秘Palantir：驱动美情报的科技巨头

探秘Palantir：驱动美情报的科技巨头

专知会员服务

2+阅读 · 今天3:14

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

专知会员服务

2+阅读 · 今天3:09

《美国海军军事海运司令部 2026年手册》

《美国海军军事海运司令部 2026年手册》

专知会员服务

2+阅读 · 今天3:05

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

专知会员服务

1+阅读 · 今天2:36

《人工智能使能系统可靠性框架》

《人工智能使能系统可靠性框架》

专知会员服务

4+阅读 · 今天2:28

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

13+阅读 · 4月26日

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

9+阅读 · 4月26日

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

7+阅读 · 4月26日

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

6+阅读 · 4月26日

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

12+阅读 · 4月26日

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

10+阅读 · 4月26日

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

7+阅读 · 4月26日

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

8+阅读 · 4月26日

相关VIP内容

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

14+阅读 · 2025年11月14日

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

专知会员服务

15+阅读 · 2025年6月22日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

专知会员服务

61+阅读 · 2023年2月4日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【第十届迪拜国际空军首长会议】《空战中的分布式指挥和控制：空战管理和任务指挥的启示》，英国皇家国防安全联合军种研究所

【第十届迪拜国际空军首长会议】《空战中的分布式指挥和控制：空战管理和任务指挥的启示》，英国皇家国防安全联合军种研究所

专知会员服务

157+阅读 · 2022年4月20日

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

专知会员服务

77+阅读 · 2021年8月18日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

探秘Palantir：驱动美情报的科技巨头

相关资讯

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

专知

14+阅读 · 2020年8月7日

分布式核心技术知识图谱，带走不谢

分布式核心技术知识图谱，带走不谢

架构师之路

12+阅读 · 2019年9月23日

美团：基于跨平台框架Flutter的动态化平台建设

美团：基于跨平台框架Flutter的动态化平台建设

前端之巅

14+阅读 · 2019年6月17日

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

泡泡机器人SLAM

11+阅读 · 2019年5月8日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

再谈变分自编码器VAE：从贝叶斯观点出发

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

GAFT：一个使用 Python 实现的遗传算法框架

GAFT：一个使用 Python 实现的遗传算法框架

Python开发者

10+阅读 · 2017年8月1日

Caffe 深度学习框架上手教程

Caffe 深度学习框架上手教程

黑龙江大学自然语言处理实验室

14+阅读 · 2016年6月12日

相关论文

Hemlet: A Heterogeneous Compute-in-Memory Chiplet Architecture for Vision Transformers with Group-Level Parallelism

Arxiv

0+阅读 · 2月9日

DAVE: Distribution-aware Attribution via ViT Gradient Decomposition

Arxiv

0+阅读 · 2月6日

InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning

Arxiv

0+阅读 · 1月30日

BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning

Arxiv

0+阅读 · 1月30日

FAIRFORMER: A transformer architecture for discrete fair division

Arxiv

0+阅读 · 1月29日

VersaQ-3D: A Reconfigurable Accelerator Enabling Feed-Forward and Generalizable 3D Reconstruction via Versatile Quantization

Arxiv

0+阅读 · 1月28日

@NTT: Algorithm-Targeted NTT hardware acceleration via Design-Time Constant Optimization

Arxiv

0+阅读 · 1月25日

PatchEAD: Unifying Industrial Visual Prompting Frameworks for Patch-Exclusive Anomaly Detection

Arxiv

0+阅读 · 1月22日

Split-and-Conquer: Distributed Factor Modeling for High-Dimensional Matrix-Variate Time Series

Arxiv

0+阅读 · 1月16日

SPGD: Steepest Perturbed Gradient Descent Optimization

Arxiv

0+阅读 · 1月14日

相关基金

分层异构网络面向视频流的绿色节能通信研究

国家自然科学基金

6+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算的动态分布式多目标粒子群算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

奇异耦合网络的动力学分析与控制

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

任意网络中的可分数据处理研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知技术的分层异构网络能效分析与资源分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于生物网络的高维多目标算法及其在分布式调度中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员