Arcalis：一种基于轻量级近缓存方案的远程过程调用加速技术 (Arcalis: Accelerating Remote Procedure Calls Using a Lightweight Near-Cache Solution) - 专知论文

会员服务 ·

0

RPC · 远程 · 微服务 · 中央处理器 (CPU) · 引擎 ·

Arcalis: Accelerating Remote Procedure Calls Using a Lightweight Near-Cache Solution

翻译：Arcalis：一种基于轻量级近缓存方案的远程过程调用加速技术

Johnson Umeike,Pongstorn Maidee,Bahar Asgari

Modern microservices increasingly depend on high-performance remote procedure calls (RPCs) to coordinate fine-grained, distributed computation. As network bandwidths continue to scale, the CPU overhead associated with RPC processing, particularly serialization, deserialization, and protocol handling, has become a critical bottleneck. This challenge is exacerbated by fast user-space networking stacks such as DPDK, which expose RPC processing as the dominant performance limiter. While prior work has explored software optimizations and FPGA-based offload engines, these approaches remain physically distant from the CPU's memory hierarchy, incurring unnecessary data movement and cache pollution. We present Arcalis, a near-cache RPC accelerator that positions a lightweight hardware engine adjacent to the last-level cache (LLC). Arcalis offloads RPC processing to dedicated microengines on receive and transmit paths that operate with cache-line latency while preserving programmability. By decoupling RPC processing logic, enabling microservice-specific execution, and positioning itself near the LLC to immediately consume data injected by network cards, Arcalis achieves 1.79-4.16$\times$ end-to-end speedup compared to the CPU baseline, while significantly reducing microarchitectural overhead by up to 88%, and achieves up to a 1.62$\times$ higher throughput than prior solutions. These results highlight the potential of near-cache RPC acceleration as a practical solution for high-performance microservice deployment.

翻译：现代微服务架构日益依赖高性能远程过程调用（RPC）来协调细粒度的分布式计算。随着网络带宽的持续提升，与RPC处理相关的CPU开销——特别是序列化、反序列化及协议处理——已成为关键性能瓶颈。这一挑战在用户态高速网络栈（如DPDK）中尤为突出，使得RPC处理成为主要性能限制因素。现有研究虽已探索软件优化及基于FPGA的卸载引擎，但这些方案仍位于CPU内存层次结构的物理远端，导致不必要的数据迁移和缓存污染。本文提出Arcalis，一种部署于末级缓存（LLC）旁的近缓存RPC加速器。Arcalis将RPC处理卸载至收发路径上的专用微引擎，这些微引擎在保持可编程性的同时以缓存行延迟运行。通过解耦RPC处理逻辑、支持微服务定制化执行，并借助近LLC部署直接处理网卡注入的数据，Arcalis相比CPU基线实现了1.79-4.16$\times$的端到端加速，同时将微架构开销降低达88%，并较现有方案获得最高1.62$\times$的吞吐量提升。这些结果表明近缓存RPC加速技术为高性能微服务部署提供了切实可行的解决方案。

0

相关内容

RPC

RPC（Remote Procedure Call Protocol）——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。

战术边缘计算：实现更快速、更智能军事决策的关键

战术边缘计算：实现更快速、更智能军事决策的关键

专知会员服务

17+阅读 · 2025年9月20日

中文版 | 战术边缘计算：实现更快、更智能军事决策的关键

中文版 | 战术边缘计算：实现更快、更智能军事决策的关键

专知会员服务

32+阅读 · 2025年4月26日

国防领域边缘计算：将智能推向行动前沿

国防领域边缘计算：将智能推向行动前沿

专知会员服务

27+阅读 · 2025年4月6日

国家标准《信息技术云计算参考架构》

国家标准《信息技术云计算参考架构》

专知会员服务

35+阅读 · 2024年5月24日

【ChatGPT系列报告】AIGC行业深度报告：ChatGPT：加速计算服务器时代到来，36页ppt

【ChatGPT系列报告】AIGC行业深度报告：ChatGPT：加速计算服务器时代到来，36页ppt

专知会员服务

86+阅读 · 2023年3月10日

《“边缘计算+”技术白皮书》算网融合产业及标准推进委员会

《“边缘计算+”技术白皮书》算网融合产业及标准推进委员会

专知会员服务

83+阅读 · 2022年8月26日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

专知会员服务

16+阅读 · 2022年3月17日

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

专知会员服务

91+阅读 · 2021年10月24日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

【APC】先进过程控制系统（APC: Advanced Process Control）

【APC】先进过程控制系统（APC: Advanced Process Control）

产业智能官

69+阅读 · 2020年7月12日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

阿里巴巴全球化架构设计挑战

阿里巴巴全球化架构设计挑战

InfoQ

36+阅读 · 2019年11月25日

分布式核心技术知识图谱，带走不谢

分布式核心技术知识图谱，带走不谢

架构师之路

12+阅读 · 2019年9月23日

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

AI科技评论

11+阅读 · 2019年5月28日

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

泡泡机器人SLAM

29+阅读 · 2019年5月27日

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

泡泡机器人SLAM

14+阅读 · 2019年1月9日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

低信噪比条件下数字通信系统码辅助同步技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

传感器非线性的模糊随机系统H无穷控制和滤波问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

超低待机功耗快速唤醒的微控制器关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Arxiv

0+阅读 · 2月18日

NeuroScaler: Towards Energy-Optimal Autoscaling for Container-Based Services

Arxiv

0+阅读 · 2月9日

ModARO: A Modular Approach to Architecture Reconstruction of Distributed Microservice Codebases

Arxiv

0+阅读 · 2月9日

The Avatar Cache: Enabling On-Demand Security with Morphable Cache Architecture

Arxiv

0+阅读 · 2月6日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

PROTEUS: SLA-Aware Routing via Lagrangian RL for Multi-LLM Serving Systems

Arxiv

0+阅读 · 2月3日

StreamShield: A Production-Proven Resiliency Solution for Apache Flink at ByteDance

Arxiv

0+阅读 · 2月3日

Morphis: SLO-Aware Resource Scheduling for Microservices with Time-Varying Call Graphs

Arxiv

0+阅读 · 2月3日

Morphis: SLO-Aware Resource Scheduling for Microservices with Time-Varying Call Graphs

Arxiv

0+阅读 · 2月1日

AnoMod: A Dataset for Anomaly Detection and Root Cause Analysis in Microservice Systems

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

中央处理器 (CPU)

相关VIP内容

战术边缘计算：实现更快速、更智能军事决策的关键

战术边缘计算：实现更快速、更智能军事决策的关键

专知会员服务

17+阅读 · 2025年9月20日

中文版 | 战术边缘计算：实现更快、更智能军事决策的关键

中文版 | 战术边缘计算：实现更快、更智能军事决策的关键

专知会员服务

32+阅读 · 2025年4月26日

国防领域边缘计算：将智能推向行动前沿

国防领域边缘计算：将智能推向行动前沿

专知会员服务

27+阅读 · 2025年4月6日

国家标准《信息技术云计算参考架构》

国家标准《信息技术云计算参考架构》

专知会员服务

35+阅读 · 2024年5月24日

【ChatGPT系列报告】AIGC行业深度报告：ChatGPT：加速计算服务器时代到来，36页ppt

【ChatGPT系列报告】AIGC行业深度报告：ChatGPT：加速计算服务器时代到来，36页ppt

专知会员服务

86+阅读 · 2023年3月10日

《“边缘计算+”技术白皮书》算网融合产业及标准推进委员会

《“边缘计算+”技术白皮书》算网融合产业及标准推进委员会

专知会员服务

83+阅读 · 2022年8月26日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

专知会员服务

16+阅读 · 2022年3月17日

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

专知会员服务

91+阅读 · 2021年10月24日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

【APC】先进过程控制系统（APC: Advanced Process Control）

【APC】先进过程控制系统（APC: Advanced Process Control）

产业智能官

69+阅读 · 2020年7月12日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

阿里巴巴全球化架构设计挑战

阿里巴巴全球化架构设计挑战

InfoQ

36+阅读 · 2019年11月25日

分布式核心技术知识图谱，带走不谢

分布式核心技术知识图谱，带走不谢

架构师之路

12+阅读 · 2019年9月23日

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

AI科技评论

11+阅读 · 2019年5月28日

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

泡泡机器人SLAM

29+阅读 · 2019年5月27日

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

泡泡机器人SLAM

14+阅读 · 2019年1月9日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

相关论文

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Arxiv

0+阅读 · 2月18日

NeuroScaler: Towards Energy-Optimal Autoscaling for Container-Based Services

Arxiv

0+阅读 · 2月9日

ModARO: A Modular Approach to Architecture Reconstruction of Distributed Microservice Codebases

Arxiv

0+阅读 · 2月9日

The Avatar Cache: Enabling On-Demand Security with Morphable Cache Architecture

Arxiv

0+阅读 · 2月6日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

PROTEUS: SLA-Aware Routing via Lagrangian RL for Multi-LLM Serving Systems

Arxiv

0+阅读 · 2月3日

StreamShield: A Production-Proven Resiliency Solution for Apache Flink at ByteDance

Arxiv

0+阅读 · 2月3日

Morphis: SLO-Aware Resource Scheduling for Microservices with Time-Varying Call Graphs

Arxiv

0+阅读 · 2月3日

Morphis: SLO-Aware Resource Scheduling for Microservices with Time-Varying Call Graphs

Arxiv

0+阅读 · 2月1日

AnoMod: A Dataset for Anomaly Detection and Root Cause Analysis in Microservice Systems

Arxiv

0+阅读 · 1月30日

相关基金

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

低信噪比条件下数字通信系统码辅助同步技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

传感器非线性的模糊随机系统H无穷控制和滤波问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

超低待机功耗快速唤醒的微控制器关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员