Designing deep networks that meet strict latency and accuracy constraints on edge accelerators increasingly relies on hardware-aware optimization, including neural architecture search (NAS) guided by device-level metrics. Yet most hardware-aware NAS pipelines still optimize architectures under full-precision assumptions and apply low-precision adaptation only after the search, leading to a mismatch between optimization-time behavior and deployment-time execution on low-precision hardware that can substantially degrade accuracy. We address this limitation by integrating deployment-aligned low-precision training directly into hardware-aware NAS. Candidate architectures are exposed to FP16 numerical constraints during fine-tuning and evaluation, enabling joint optimization of architectural efficiency and numerical robustness without modifying the search space or evolutionary strategy. We evaluate the proposed framework on vessel segmentation for spaceborne maritime monitoring, targeting the Intel Movidius Myriad X Visual Processing Unit (VPU). While post-training precision conversion reduces on-device performance from 0.85 to 0.78 mIoU, deployment-aligned low-precision training achieves 0.826 mIoU on-device for the same architecture (95,791 parameters), recovering approximately two-thirds of deployment-induced accuracy gap without increasing model complexity. These results demonstrate that incorporating deployment-consistent numerical constraints into hardware-aware NAS substantially improves robustness and alignment between optimization and deployment for resource-constrained edge Artificial Intelligence (AI).


翻译:在边缘加速器上设计满足严格延迟和精度约束的深度网络,越来越依赖于硬件感知优化,包括基于设备级指标的神经架构搜索(NAS)。然而,大多数硬件感知NAS流程仍假设全精度条件优化架构,仅在搜索后应用低精度适配,导致优化阶段行为与低精度硬件部署执行不匹配,从而显著降低精度。我们通过将部署对齐的低精度训练直接集成到硬件感知NAS中来解决此限制。在微调和评估过程中,候选架构将暴露于FP16数值约束,从而在不修改搜索空间或进化策略的情况下实现架构效率与数值鲁棒性的联合优化。我们针对星载海事监测的血管分割任务评估所提框架,目标平台为Intel Movidius Myriad X视觉处理单元(VPU)。结果表明,后训练精度转换使设备性能从0.85 mIoU降至0.78 mIoU,而针对相同架构(95,791个参数)的部署对齐低精度训练在设备上达到0.826 mIoU,在无需增加模型复杂度的情况下恢复了约三分之二的部署精度差距。这些结果证明,将部署一致的数值约束纳入硬件感知NAS可显著提升资源受限边缘人工智能(AI)的鲁棒性及优化与部署之间的对齐度。

0
下载
关闭预览

相关内容

基于脉冲神经网络的边缘智能
专知会员服务
21+阅读 · 2025年7月23日
《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
37+阅读 · 2025年4月12日
【博士论文】边缘分布式深度神经网络推理
专知会员服务
27+阅读 · 2025年2月26日
【ECCV2022】高效神经结构搜索的新前沿,106页pdf
专知会员服务
29+阅读 · 2022年10月18日
专知会员服务
20+阅读 · 2021年9月16日
最新《神经架构搜索NAS》报告,附46页ppt与视频
专知会员服务
37+阅读 · 2020年12月30日
【NeurIPS 2020 】神经网络结构生成优化
专知会员服务
21+阅读 · 2020年10月24日
《“边缘计算+”技术白皮书》,82页pdf
专知
11+阅读 · 2022年8月28日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
基于脉冲神经网络的边缘智能
专知会员服务
21+阅读 · 2025年7月23日
《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
37+阅读 · 2025年4月12日
【博士论文】边缘分布式深度神经网络推理
专知会员服务
27+阅读 · 2025年2月26日
【ECCV2022】高效神经结构搜索的新前沿,106页pdf
专知会员服务
29+阅读 · 2022年10月18日
专知会员服务
20+阅读 · 2021年9月16日
最新《神经架构搜索NAS》报告,附46页ppt与视频
专知会员服务
37+阅读 · 2020年12月30日
【NeurIPS 2020 】神经网络结构生成优化
专知会员服务
21+阅读 · 2020年10月24日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员