RooflineBench：基于屋顶线分析的端侧大语言模型基准测试框架 (RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis) - 专知论文

会员服务 ·

0

分析 · 语言模型 · 基准 · 基准测试 · 异构 ·

RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis

翻译：RooflineBench：基于屋顶线分析的端侧大语言模型基准测试框架

Zhen Bi,Xueshu Chen,Luoyang Sun,Yuhang Yao,Qing Shen,Jungang Lou,Cheng Deng

The transition toward localized intelligence through Small Language Models (SLMs) has intensified the need for rigorous performance characterization on resource-constrained edge hardware. However, objectively measuring the theoretical performance ceilings of diverse architectures across heterogeneous platforms remains a formidable challenge. In this work, we propose a systematic framework based on the Roofline model that unifies architectural primitives and hardware constraints through the lens of operational intensity (OI). By defining an inference-potential region, we introduce the Relative Inference Potential as a novel metric to compare efficiency differences between Large Language Models (LLMs) on the same hardware substrate. Extensive empirical analysis across diverse compute tiers reveals that variations in performance and OI are significantly influenced by sequence length. We further identify a critical regression in OI as model depth increases. Additionally, our findings highlight an efficiency trap induced by hardware heterogeneity and demonstrate how structural refinements, such as Multi-head Latent Attention (M LA), can effectively unlock latent inference potential across various hardware substrates. These insights provide actionable directions for hardware-software co-design to align neural structures with physical constraints in on-device intelligence. The released code is available in the Appendix C.

翻译：通过小型语言模型（SLMs）实现本地化智能的转型，加强了对资源受限的边缘硬件进行严格性能表征的需求。然而，客观地衡量异构平台上不同架构的理论性能上限仍然是一项艰巨的挑战。在本工作中，我们提出一个基于屋顶线模型的系统化框架，该框架通过运算强度（OI）的视角统一了架构原语与硬件约束。通过定义推理潜力区域，我们引入了相对推理潜力这一新指标，用于比较同一硬件基底上不同大语言模型（LLMs）的效率差异。跨多个计算层级的广泛实证分析表明，性能与运算强度的变化受序列长度影响显著。我们进一步发现，随着模型深度增加，运算强度存在一个关键的衰退现象。此外，我们的研究结果突显了由硬件异构性引发的效率陷阱，并展示了诸如多头潜在注意力（M LA）等结构优化如何能有效释放不同硬件基底上的潜在推理能力。这些见解为硬件-软件协同设计提供了可行的方向，以使神经结构能与端侧智能的物理约束相匹配。发布的代码详见附录C。

0

相关内容

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

【斯坦福大学博士论文】构建大语言模型的交互式学习流程管线

【斯坦福大学博士论文】构建大语言模型的交互式学习流程管线

专知会员服务

21+阅读 · 2025年6月13日

小型语言模型综述

小型语言模型综述

专知会员服务

54+阅读 · 2024年10月29日

边缘大型语言模型综述：设计、执行与应用

边缘大型语言模型综述：设计、执行与应用

专知会员服务

41+阅读 · 2024年10月21日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

专知会员服务

28+阅读 · 2024年5月31日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

全球人工智能

21+阅读 · 2017年10月27日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向混凝土梁桥结构状态评估的非线性有限元模型修正研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知技术的分层异构网络能效分析与资源分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

Arxiv

0+阅读 · 3月16日

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Arxiv

0+阅读 · 3月3日

LLMServingSim 2.0: A Unified Simulator for Heterogeneous and Disaggregated LLM Serving Infrastructure

Arxiv

0+阅读 · 2月26日

DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation

Arxiv

0+阅读 · 2月24日

AttestLLM: Efficient Attestation Framework for Billion-scale On-device LLMs

Arxiv

0+阅读 · 2月23日

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

Arxiv

0+阅读 · 2月17日

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

Arxiv

0+阅读 · 2月15日

RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis

Arxiv

0+阅读 · 2月12日

ProOPF: Benchmarking and Improving LLMs for Professional-Grade Power Systems Optimization Modeling

Arxiv

0+阅读 · 2月6日

LinearizeLLM: An Agent-Based Framework for LLM-Driven Exact Linear Reformulation of Nonlinear Optimization Problems

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

专知会员服务

4+阅读 · 4月17日

美军“数据2030”概念设想：数字化杀伤链统一标准

美军“数据2030”概念设想：数字化杀伤链统一标准

专知会员服务

3+阅读 · 4月17日

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

专知会员服务

4+阅读 · 4月17日

前沿军事人工智能系统的理解与控制（报告1.8万字）

前沿军事人工智能系统的理解与控制（报告1.8万字）

专知会员服务

2+阅读 · 4月17日

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

专知会员服务

3+阅读 · 4月17日

《人工智能赋能电磁战》（报告）

《人工智能赋能电磁战》（报告）

专知会员服务

2+阅读 · 4月17日

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

专知会员服务

2+阅读 · 4月17日

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

专知会员服务

2+阅读 · 4月17日

【CMU博士论文】迈向可扩展的开放世界三维感知

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

1+阅读 · 4月17日

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

1+阅读 · 4月17日

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

4+阅读 · 4月17日

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

6+阅读 · 4月17日

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

9+阅读 · 4月17日

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

4+阅读 · 4月17日

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

3+阅读 · 4月17日

相关VIP内容

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

【斯坦福大学博士论文】构建大语言模型的交互式学习流程管线

【斯坦福大学博士论文】构建大语言模型的交互式学习流程管线

专知会员服务

21+阅读 · 2025年6月13日

小型语言模型综述

小型语言模型综述

专知会员服务

54+阅读 · 2024年10月29日

边缘大型语言模型综述：设计、执行与应用

边缘大型语言模型综述：设计、执行与应用

专知会员服务

41+阅读 · 2024年10月21日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

专知会员服务

28+阅读 · 2024年5月31日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

美军“数据2030”概念设想：数字化杀伤链统一标准

前沿军事人工智能系统的理解与控制（报告1.8万字）

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

相关资讯

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

全球人工智能

21+阅读 · 2017年10月27日

相关论文

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

Arxiv

0+阅读 · 3月16日

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Arxiv

0+阅读 · 3月3日

LLMServingSim 2.0: A Unified Simulator for Heterogeneous and Disaggregated LLM Serving Infrastructure

Arxiv

0+阅读 · 2月26日

DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation

Arxiv

0+阅读 · 2月24日

AttestLLM: Efficient Attestation Framework for Billion-scale On-device LLMs

Arxiv

0+阅读 · 2月23日

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

Arxiv

0+阅读 · 2月17日

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

Arxiv

0+阅读 · 2月15日

RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis

Arxiv

0+阅读 · 2月12日

ProOPF: Benchmarking and Improving LLMs for Professional-Grade Power Systems Optimization Modeling

Arxiv

0+阅读 · 2月6日

LinearizeLLM: An Agent-Based Framework for LLM-Driven Exact Linear Reformulation of Nonlinear Optimization Problems

Arxiv

0+阅读 · 2月2日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向混凝土梁桥结构状态评估的非线性有限元模型修正研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知技术的分层异构网络能效分析与资源分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员