AIA: A Customized Multi-core RISC-V SoC for Discrete Sampling Workloads in 16 nm - 专知论文

会员服务 ·

0

离散 · 离散采样 · 负载 · MCMC · 并行 ·

AIA: A Customized Multi-core RISC-V SoC for Discrete Sampling Workloads in 16 nm

翻译：AIA：面向16纳米离散采样工作负载的定制化多核RISC-V SoC

Shirui Zhao,Nimish Shah,Wannes Meert,Marian Verhelst

Probabilistic models (PMs) are essential in advancing machine learning capabilities, particularly in safety-critical applications involving reasoning and decision-making. Among the methods employed for inference in these models, sampling-based Markov Chain Monte Carlo (MCMC) techniques are widely used. However, MCMC methods come with significant computational costs and are inherently challenging to parallelize, resulting in inefficient execution on conventional CPU/GPU platforms. To overcome these challenges, this paper presents AIA, a multi-core RISC-V System-on-Chip (SoC) design fabricated using Intel's 16 nm process technology. Our Approximate Inference Accelerator (AIA) is specifically designed to empower edge devices with robust decision-making and reasoning abilities. The AIA architecture incorporates a RISC-V host processor to manage chip-to-chip data communication and a 2D mesh of 16 custom versatile RISC-V cores optimized for high-efficiency approximate inference. Each core features (i) custom instructions and datapath blocks for non-normalized Knuth-Yao (KY) sampling, as well as for the interpolation of non-linear functions (e.g., logarithmic, exponential), and (ii) direct data access to the register file of each neighboring core, to reduce the data movement costs of frequent data exchanges between nearby cores. To further capitalize on the parallelism potential in MCMC algorithms, we developed a specialized compile chain that enables efficient spatial mapping and scheduling across the cores.

翻译：概率模型在推动机器学习能力发展方面至关重要，尤其在涉及推理与决策的安全关键型应用中。在此类模型推断方法中，基于采样的马尔可夫链蒙特卡洛技术得到广泛应用。然而，MCMC方法存在显著计算开销且天然难以并行化，导致其在传统CPU/GPU平台上执行效率低下。为应对这些挑战，本文提出AIA——一款采用英特尔16纳米工艺制造的多核RISC-V系统级芯片设计。我们的近似推理加速器专为边缘设备赋予强大的决策与推理能力而设计。AIA架构包含一个用于管理芯片间数据通信的RISC-V主机处理器，以及一个由16个定制化通用RISC-V内核组成的二维网格，这些内核针对高效近似推理进行了优化。每个内核具有：(i) 用于非归一化Knuth-Yao采样及非线性函数插值的自定义指令与数据通路模块，及(ii) 对相邻内核寄存器文件的直接数据访问能力，以减少邻近内核间频繁数据交换的数据搬运成本。为充分利用MCMC算法中的并行潜力，我们开发了专用编译链，实现了跨内核的高效空间映射与调度。

0

相关内容

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

23+阅读 · 6月24日

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

20+阅读 · 2月12日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

《多域作战中用于人工智能（AI）和机器学习（ML）的合成环境》（中文版）美国陆军研究实验室报告

《多域作战中用于人工智能（AI）和机器学习（ML）的合成环境》（中文版）美国陆军研究实验室报告

专知会员服务

162+阅读 · 2023年7月12日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

专知会员服务

65+阅读 · 2022年3月6日

AI芯片发展现状及前景分析

专知会员服务

66+阅读 · 2021年5月2日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

专知

59+阅读 · 2022年9月24日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

机器学习研究会

12+阅读 · 2017年11月3日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向异构多核并行机的辐射流体力学并行预条件技术

国家自然科学基金

0+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

Ascend-RaBitQ: Heterogeneous NPU-CPU Acceleration of Billion-Scale Similarity Search with 1-bit Quantization

Arxiv

0+阅读 · 6月15日

AIA: A 16nm Multicore SoC for Approximate Inference Acceleration Exploiting Non-normalized Knuth-Yao Sampling and Inter-Core Register Sharing

Arxiv

0+阅读 · 6月15日

Eidola: Modeling Multi-GPU Network Communication Traffic in Distributed AI Workloads

Arxiv

0+阅读 · 6月10日

Toward a Modular Architecture for Embedded AI Agent Systems at the Edge

Arxiv

0+阅读 · 6月1日

Spectral subsampling MCMC for Lévy-driven continuous-time ARMA models with expensive likelihood contributions

Arxiv

0+阅读 · 5月29日

NeuroRing: Scaling Spiking Neural Networks via Multi-FPGA Bidirectional Ring Topologies and Stream-Dataflow Architectures

Arxiv

0+阅读 · 5月26日

A Scalable Parametric Item Calibration Engine (SPICE) for Explanatory IRT with Sparse Data

Arxiv

0+阅读 · 5月20日

gemlib.mcmc: composable kernels for Metropolis-within-Gibbs sampling schemes

Arxiv

0+阅读 · 5月11日

Nested Slice Sampling: Vectorized Nested Sampling for GPU-Accelerated Inference

Arxiv

0+阅读 · 5月10日

A Reconfigurable Multiplier Architecture for Error-Resilient Applications in RISC-V Core

Arxiv

0+阅读 · 5月9日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

4+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

23+阅读 · 6月24日

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

20+阅读 · 2月12日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

《多域作战中用于人工智能（AI）和机器学习（ML）的合成环境》（中文版）美国陆军研究实验室报告

《多域作战中用于人工智能（AI）和机器学习（ML）的合成环境》（中文版）美国陆军研究实验室报告

专知会员服务

162+阅读 · 2023年7月12日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

专知会员服务

65+阅读 · 2022年3月6日

AI芯片发展现状及前景分析

专知会员服务

66+阅读 · 2021年5月2日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

专知

59+阅读 · 2022年9月24日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

机器学习研究会

12+阅读 · 2017年11月3日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

相关论文

Ascend-RaBitQ: Heterogeneous NPU-CPU Acceleration of Billion-Scale Similarity Search with 1-bit Quantization

Arxiv

0+阅读 · 6月15日

AIA: A 16nm Multicore SoC for Approximate Inference Acceleration Exploiting Non-normalized Knuth-Yao Sampling and Inter-Core Register Sharing

Arxiv

0+阅读 · 6月15日

Eidola: Modeling Multi-GPU Network Communication Traffic in Distributed AI Workloads

Arxiv

0+阅读 · 6月10日

Toward a Modular Architecture for Embedded AI Agent Systems at the Edge

Arxiv

0+阅读 · 6月1日

Spectral subsampling MCMC for Lévy-driven continuous-time ARMA models with expensive likelihood contributions

Arxiv

0+阅读 · 5月29日

NeuroRing: Scaling Spiking Neural Networks via Multi-FPGA Bidirectional Ring Topologies and Stream-Dataflow Architectures

Arxiv

0+阅读 · 5月26日

A Scalable Parametric Item Calibration Engine (SPICE) for Explanatory IRT with Sparse Data

Arxiv

0+阅读 · 5月20日

gemlib.mcmc: composable kernels for Metropolis-within-Gibbs sampling schemes

Arxiv

0+阅读 · 5月11日

Nested Slice Sampling: Vectorized Nested Sampling for GPU-Accelerated Inference

Arxiv

0+阅读 · 5月10日

A Reconfigurable Multiplier Architecture for Error-Resilient Applications in RISC-V Core

Arxiv

0+阅读 · 5月9日

相关基金

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向异构多核并行机的辐射流体力学并行预条件技术

国家自然科学基金

0+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员