CARMEN: CORDIC-Accelerated Resource-Efficient Multi-Precision Inference Engine for Deep Learning - 专知论文

会员服务 ·

0

推断 · Engineering · Learning · MAC · 深度学习 ·

CARMEN: CORDIC-Accelerated Resource-Efficient Multi-Precision Inference Engine for Deep Learning

翻译：CARMEN：基于CORDIC加速的资源高效深度学习多精度推理引擎

Sonu Kumar,Mukul Lokhande,Santosh Kumar Vishvakarma,Adam Teman

from arxiv, Under Review (VDAT 2026)

This paper presents CARMEN, a runtime-adaptive, CORDIC-accelerated multi-precision vector engine for resource-efficient deep learning inference. The key insight is that CORDIC iteration depth directly governs computational accuracy, enabling dynamic switching between approximate and accurate execution modes without hardware modification. The architecture integrates a low-resource iterative CORDIC-based MAC unit with a time-multiplexed multi-activation function block, supporting flexible 8/16-bit precision and high hardware utilization. ASIC implementation in 28 nm CMOS achieves up to 33% reduction in computation cycles and 21% power savings per MAC stage; a 256-PE configuration delivers 4.83 TOPS/mm2 compute density and 11.67 TOPS/W energy efficiency. FPGA deployment on PynqZ2 validates 154.6 ms latency at 0.43 W for real-time object detection.

翻译：本文提出CARMEN，一种运行时自适应、基于CORDIC加速的多精度向量引擎，用于资源高效的深度学习推理。其核心思想在于CORDIC迭代深度直接决定计算精度，从而无需修改硬件即可在近似与精确执行模式间动态切换。该架构将低资源迭代式CORDIC乘累加单元与时域复用多激活函数模块相结合，支持灵活的8/16位精度并实现高硬件利用率。基于28 nm CMOS的ASIC实现，每个乘累加级计算周期最多减少33%，功耗降低21%；256个处理单元配置下计算密度达4.83 TOPS/mm²，能效达11.67 TOPS/W。在PynqZ2上的FPGA部署验证了实时目标检测延迟为154.6 ms，功耗仅0.43 W。

0

相关内容

DeepSeek技术溯源及前沿探索

DeepSeek技术溯源及前沿探索

专知会员服务

34+阅读 · 2025年5月28日

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

专知会员服务

80+阅读 · 2025年2月14日

DeepSeek最新开源的R1推理模型：DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

DeepSeek最新开源的R1推理模型：DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

专知会员服务

45+阅读 · 2025年1月21日

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

专知会员服务

22+阅读 · 2024年11月18日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

美国DARPA最新推出“有保证的神经符号学习和推理”（ANSR）”项目：推进混合AI算法并开发基于证据的技术（附解读PPT与项目详细说明pdf）

美国DARPA最新推出“有保证的神经符号学习和推理”（ANSR）”项目：推进混合AI算法并开发基于证据的技术（附解读PPT与项目详细说明pdf）

专知会员服务

76+阅读 · 2022年6月30日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知会员服务

49+阅读 · 2020年3月23日

DeepMind科学家Trask《Grokking Deep Learning》图书及代码, 带你无障碍深度学习，高中数学OK

DeepMind科学家Trask《Grokking Deep Learning》图书及代码, 带你无障碍深度学习，高中数学OK

专知会员服务

94+阅读 · 2020年2月29日

【博士论文】CHAMELEON:新闻推荐系统的深度学习元架构，187页pdf，CHAMELEON: A Deep Learning Meta-Architecture for News Recommender Systems [Phd. Thesis]

【博士论文】CHAMELEON:新闻推荐系统的深度学习元架构，187页pdf，CHAMELEON: A Deep Learning Meta-Architecture for News Recommender Systems [Phd. Thesis]

专知会员服务

22+阅读 · 2020年1月15日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

深度学习工程化神器Keras教程：《Keras深度学习进阶》随书代码

深度学习工程化神器Keras教程：《Keras深度学习进阶》随书代码

专知

23+阅读 · 2019年7月12日

高赞人气资源！集结数百篇顶会论文，由浅入深让你吃透图深度学习

高赞人气资源！集结数百篇顶会论文，由浅入深让你吃透图深度学习

量子位

10+阅读 · 2019年7月7日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

【收藏】50+门《深度学习、强化学习、NLP、CV》课程超级大列表，

【收藏】50+门《深度学习、强化学习、NLP、CV》课程超级大列表，

专知

11+阅读 · 2019年1月27日

DeepMind科学家Trask2019著作《图解深度学习》图书及代码,16章带你无障碍深度学习，高中生数学就ok

DeepMind科学家Trask2019著作《图解深度学习》图书及代码,16章带你无障碍深度学习，高中生数学就ok

专知

15+阅读 · 2019年1月10日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

深度学习 | 免费使用Google Colab的GPU云计算平台

深度学习 | 免费使用Google Colab的GPU云计算平台

沈浩老师

12+阅读 · 2018年2月4日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

核反应动力学高效数值模拟软件集成开发与应用

国家自然科学基金

1+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

TechRAG: Evidence-Gated Multimodal Agentic RAG for Technical Literature Reasoning

Arxiv

0+阅读 · 6月13日

ANEForge: Python for direct computation on the Apple Neural Engine

Arxiv

0+阅读 · 6月12日

TorchKM: A GPU-Oriented Library for Kernel Learning and Model Selection

Arxiv

0+阅读 · 6月9日

MuJoCo-Drones-Gym: A GPU-Accelerated Multi-Drone Simulator for Control and Reinforcement Learning

Arxiv

0+阅读 · 6月6日

OpenEye: A Scalable Open-Source Hardware Accelerator for DNNs

Arxiv

0+阅读 · 5月31日

Caspar: CUDA Accelerator for Symbolic Programming with Adaptive Reordering

Arxiv

0+阅读 · 5月28日

CMAX-CAMEL: A Coarse-to-Fine Adaptive, Memory-Efficient, and Low-Power Edge Processor for Contrast Maximization

Arxiv

0+阅读 · 5月20日

TREA: Low-precision Time-Multiplexed, Resource-Efficient Edge Accelerator for Object Detection and Classification

Arxiv

0+阅读 · 5月8日

EULER-ADAS: Energy-Efficient & SIMD-Unified Logarithmic-Posit Engine for Precision-Reconfigurable Approximate ADAS Acceleration

Arxiv

0+阅读 · 5月7日

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

5+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

DeepSeek技术溯源及前沿探索

DeepSeek技术溯源及前沿探索

专知会员服务

34+阅读 · 2025年5月28日

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

专知会员服务

80+阅读 · 2025年2月14日

DeepSeek最新开源的R1推理模型：DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

DeepSeek最新开源的R1推理模型：DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

专知会员服务

45+阅读 · 2025年1月21日

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

专知会员服务

22+阅读 · 2024年11月18日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

美国DARPA最新推出“有保证的神经符号学习和推理”（ANSR）”项目：推进混合AI算法并开发基于证据的技术（附解读PPT与项目详细说明pdf）

美国DARPA最新推出“有保证的神经符号学习和推理”（ANSR）”项目：推进混合AI算法并开发基于证据的技术（附解读PPT与项目详细说明pdf）

专知会员服务

76+阅读 · 2022年6月30日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知会员服务

49+阅读 · 2020年3月23日

DeepMind科学家Trask《Grokking Deep Learning》图书及代码, 带你无障碍深度学习，高中数学OK

DeepMind科学家Trask《Grokking Deep Learning》图书及代码, 带你无障碍深度学习，高中数学OK

专知会员服务

94+阅读 · 2020年2月29日

【博士论文】CHAMELEON:新闻推荐系统的深度学习元架构，187页pdf，CHAMELEON: A Deep Learning Meta-Architecture for News Recommender Systems [Phd. Thesis]

【博士论文】CHAMELEON:新闻推荐系统的深度学习元架构，187页pdf，CHAMELEON: A Deep Learning Meta-Architecture for News Recommender Systems [Phd. Thesis]

专知会员服务

22+阅读 · 2020年1月15日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

深度学习工程化神器Keras教程：《Keras深度学习进阶》随书代码

深度学习工程化神器Keras教程：《Keras深度学习进阶》随书代码

专知

23+阅读 · 2019年7月12日

高赞人气资源！集结数百篇顶会论文，由浅入深让你吃透图深度学习

高赞人气资源！集结数百篇顶会论文，由浅入深让你吃透图深度学习

量子位

10+阅读 · 2019年7月7日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

【收藏】50+门《深度学习、强化学习、NLP、CV》课程超级大列表，

【收藏】50+门《深度学习、强化学习、NLP、CV》课程超级大列表，

专知

11+阅读 · 2019年1月27日

DeepMind科学家Trask2019著作《图解深度学习》图书及代码,16章带你无障碍深度学习，高中生数学就ok

DeepMind科学家Trask2019著作《图解深度学习》图书及代码,16章带你无障碍深度学习，高中生数学就ok

专知

15+阅读 · 2019年1月10日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

深度学习 | 免费使用Google Colab的GPU云计算平台

深度学习 | 免费使用Google Colab的GPU云计算平台

沈浩老师

12+阅读 · 2018年2月4日

相关论文

TechRAG: Evidence-Gated Multimodal Agentic RAG for Technical Literature Reasoning

Arxiv

0+阅读 · 6月13日

ANEForge: Python for direct computation on the Apple Neural Engine

Arxiv

0+阅读 · 6月12日

TorchKM: A GPU-Oriented Library for Kernel Learning and Model Selection

Arxiv

0+阅读 · 6月9日

MuJoCo-Drones-Gym: A GPU-Accelerated Multi-Drone Simulator for Control and Reinforcement Learning

Arxiv

0+阅读 · 6月6日

OpenEye: A Scalable Open-Source Hardware Accelerator for DNNs

Arxiv

0+阅读 · 5月31日

Caspar: CUDA Accelerator for Symbolic Programming with Adaptive Reordering

Arxiv

0+阅读 · 5月28日

CMAX-CAMEL: A Coarse-to-Fine Adaptive, Memory-Efficient, and Low-Power Edge Processor for Contrast Maximization

Arxiv

0+阅读 · 5月20日

TREA: Low-precision Time-Multiplexed, Resource-Efficient Edge Accelerator for Object Detection and Classification

Arxiv

0+阅读 · 5月8日

EULER-ADAS: Energy-Efficient & SIMD-Unified Logarithmic-Posit Engine for Precision-Reconfigurable Approximate ADAS Acceleration

Arxiv

0+阅读 · 5月7日

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

Arxiv

0+阅读 · 5月6日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

核反应动力学高效数值模拟软件集成开发与应用

国家自然科学基金

1+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员