Proxics: an efficient programming model for far memory accelerators - 专知论文

会员服务 ·

0

内存 · 编程 · 系统 · 编程模型 · 中央处理器 (CPU) ·

Proxics: an efficient programming model for far memory accelerators

翻译：Proxics：一种面向远端内存加速器的高效编程模型

Zikai Liu,Niels Pressel,Jasmin Schult,Roman Meier,Pengcheng Xu,Timothy Roscoe

The use of disaggregated or far memory systems such as CXL memory pools has renewed interest in Near-Data Processing (NDP): situating cores close to memory to reduce bandwidth requirements to and from the CPU. Hardware designs for such accelerators are appearing, but there lack clean, portable OS abstractions for programming them. We propose a programming model for NDP devices based on familiar OS abstractions: virtual processors (processes) and inter-process communication channels (like Unix pipes). While appealing from a user perspective, a naive implementation of such abstractions is inappropriate for NDP accelerators: the paucity of processing power in some hardware designs makes classical processes overly heavyweight, and IPC based on shared buffers makes no sense in a system designed to reduce memory bandwidth. Accordingly, we show how to implement these abstractions in a lightweight and efficient manner by exploiting compilation and interconnect protocols. We demonstrate them with a real hardware platform runing applications with a range of memory access patterns, including bulk memory operations, in-memory databases and graph applications. Crucially, we show not only the benefits over CPU-only implementations, but also the critical importance of efficient, low-latency communication channels between CPU and NDP accelerators, a feature largely neglected in existing proposals.

翻译：对解聚式或远端内存系统（如CXL内存池）的应用，重新引发了人们对近数据处理（NDP）的关注：将计算核心部署在内存附近，以减少与CPU之间的带宽需求。此类加速器的硬件设计正在涌现，但缺乏清晰、可移植的操作系统抽象用于编程。我们提出了一种基于熟悉操作系统抽象（虚拟处理器（进程）和进程间通信通道（类似Unix管道））的NDP设备编程模型。尽管从用户角度看颇具吸引力，但对这些抽象的简单实现在NDP加速器上并不适用：某些硬件设计中处理能力的匮乏使得传统进程过于笨重，而基于共享缓冲区的进程间通信在旨在减少内存带宽的系统中毫无意义。因此，我们展示了如何通过利用编译器和互连协议，以轻量级且高效的方式实现这些抽象。我们通过一个真实的硬件平台进行演示，运行了多种内存访问模式的应用，包括大块内存操作、内存数据库和图应用。关键的是，我们不仅展示了相较于仅使用CPU实现方案的优势，还揭示了CPU与NDP加速器之间高效、低延迟通信通道的极端重要性——这一特性在现有方案中大多被忽略。

0

相关内容

【斯坦福博士论文】可扩展、高效且安全的机器学习数据系统

【斯坦福博士论文】可扩展、高效且安全的机器学习数据系统

专知会员服务

21+阅读 · 2025年6月9日

【ETZH博士论文】多精度硬件加速的架构与微架构解决方案

【ETZH博士论文】多精度硬件加速的架构与微架构解决方案

专知会员服务

13+阅读 · 2025年2月1日

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

19+阅读 · 2025年1月7日

【MIT博士论文】高效深度学习计算的模型加速

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

34+阅读 · 2024年8月23日

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

专知会员服务

60+阅读 · 2024年2月25日

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

专知会员服务

36+阅读 · 2023年8月12日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

专知会员服务

91+阅读 · 2022年6月1日

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

专知会员服务

50+阅读 · 2022年4月8日

【论文】利用Python开发长短时记忆网络，利用深度学习开发序列预测模型（Long Short-Term Memory Networks With Python，Develop Sequence Prediction Models With Deep Learning），246页pdf

【论文】利用Python开发长短时记忆网络，利用深度学习开发序列预测模型（Long Short-Term Memory Networks With Python，Develop Sequence Prediction Models With Deep Learning），246页pdf

专知会员服务

52+阅读 · 2020年1月1日

安利一个开源的好工具Label Studio, 闭环数据标注和模型训练

安利一个开源的好工具Label Studio, 闭环数据标注和模型训练

AINLP

27+阅读 · 2020年12月30日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

航天器嵌入式操作系统内存管理系统的形式化建模及验证研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

3D堆叠众核处理器共享存储访问均衡性研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

SpecPCM: A Low-power PCM-based In-Memory Computing Accelerator for Full-stack Mass Spectrometry Analysis

Arxiv

0+阅读 · 6月2日

Heterogeneous Mapping for Analog In-Memory Computing Accelerators: A Unified Workflow

Arxiv

0+阅读 · 6月1日

SiDP: Memory-Efficient Data Parallelism for Offline LLM Inference

Arxiv

0+阅读 · 5月27日

PystachIO: Efficient Distributed GPU Query Processing with PyTorch over Fast Networks & Fast Storage

Arxiv

0+阅读 · 5月20日

PystachIO: Efficient Distributed GPU Query Processing with PyTorch over Fast Networks & Fast Storage

Arxiv

0+阅读 · 5月19日

ADS-IMC: Accelerating Data Sorting with In-Memory Computation

Arxiv

0+阅读 · 5月15日

Time Domain Near Memory Computing Engine

Arxiv

0+阅读 · 5月13日

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

Arxiv

0+阅读 · 5月13日

Accelerating Precise End-to-End Simulation: Latency-Sensitive Many-core System Modeling

Arxiv

0+阅读 · 5月8日

DARTH-PUM: A Hybrid Processing-Using-Memory Architecture

Arxiv

0+阅读 · 5月4日

VIP会员

文章信息

相关主题

中央处理器 (CPU)

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【斯坦福博士论文】可扩展、高效且安全的机器学习数据系统

【斯坦福博士论文】可扩展、高效且安全的机器学习数据系统

专知会员服务

21+阅读 · 2025年6月9日

【ETZH博士论文】多精度硬件加速的架构与微架构解决方案

【ETZH博士论文】多精度硬件加速的架构与微架构解决方案

专知会员服务

13+阅读 · 2025年2月1日

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

19+阅读 · 2025年1月7日

【MIT博士论文】高效深度学习计算的模型加速

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

34+阅读 · 2024年8月23日

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

专知会员服务

60+阅读 · 2024年2月25日

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

专知会员服务

36+阅读 · 2023年8月12日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

专知会员服务

91+阅读 · 2022年6月1日

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

专知会员服务

50+阅读 · 2022年4月8日

【论文】利用Python开发长短时记忆网络，利用深度学习开发序列预测模型（Long Short-Term Memory Networks With Python，Develop Sequence Prediction Models With Deep Learning），246页pdf

【论文】利用Python开发长短时记忆网络，利用深度学习开发序列预测模型（Long Short-Term Memory Networks With Python，Develop Sequence Prediction Models With Deep Learning），246页pdf

专知会员服务

52+阅读 · 2020年1月1日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

安利一个开源的好工具Label Studio, 闭环数据标注和模型训练

安利一个开源的好工具Label Studio, 闭环数据标注和模型训练

AINLP

27+阅读 · 2020年12月30日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

SpecPCM: A Low-power PCM-based In-Memory Computing Accelerator for Full-stack Mass Spectrometry Analysis

Arxiv

0+阅读 · 6月2日

Heterogeneous Mapping for Analog In-Memory Computing Accelerators: A Unified Workflow

Arxiv

0+阅读 · 6月1日

SiDP: Memory-Efficient Data Parallelism for Offline LLM Inference

Arxiv

0+阅读 · 5月27日

PystachIO: Efficient Distributed GPU Query Processing with PyTorch over Fast Networks & Fast Storage

Arxiv

0+阅读 · 5月20日

PystachIO: Efficient Distributed GPU Query Processing with PyTorch over Fast Networks & Fast Storage

Arxiv

0+阅读 · 5月19日

ADS-IMC: Accelerating Data Sorting with In-Memory Computation

Arxiv

0+阅读 · 5月15日

Time Domain Near Memory Computing Engine

Arxiv

0+阅读 · 5月13日

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

Arxiv

0+阅读 · 5月13日

Accelerating Precise End-to-End Simulation: Latency-Sensitive Many-core System Modeling

Arxiv

0+阅读 · 5月8日

DARTH-PUM: A Hybrid Processing-Using-Memory Architecture

Arxiv

0+阅读 · 5月4日

相关基金

航天器嵌入式操作系统内存管理系统的形式化建模及验证研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

3D堆叠众核处理器共享存储访问均衡性研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员