HiFloat4 Format for Language Model Inference - 专知论文

会员服务 ·

0

比特 · 缩放 · 元数据 · 语言模型 · 模型推理 ·

HiFloat4 Format for Language Model Inference

翻译：HiFloat4格式：面向语言模型推理的量化方案

Yuanyong Luo,Jing Huang,Yu Cheng,Ziwei Yu,Kaihua Zhang,Kehong Hong,Xinda Ma,Xin Wang,Anping Tong,Guipeng Hu,Yun Xu,Mehran Taghian,Peng Wu,Guanglin Li,Yunke Peng,Tianchi Hu,Minqi Chen,Michael Bi Mi,Hu Liu,Xiping Zhou,Junsong Wang,Qiang Lin,Heng Liao

from arxiv, 8 pages, 4 figures

This paper introduces HiFloat4 (HiF4), a block floating-point data format tailored for deep learning. Each HiF4 unit packs 64 4-bit elements with 32 bits of shared scaling metadata, averaging 4.5 bits per value. The metadata specifies a three-level scaling hierarchy, capturing inter- and intra-group dynamic range while improving the utilization of the representational space. In addition, the large 64-element group size enables matrix multiplications to be executed in a highly fixed-point manner, significantly reducing hardware area and power consumption. To evaluate the proposed format, we conducted inference experiments on several language models, including LLaMA, Qwen, Mistral, DeepSeek-V3.1 and LongCat. Results show that HiF4 achieves higher average accuracy than the state-of-the-art NVFP4 format across multiple models and diverse downstream tasks.

翻译：本文提出HiFloat4（HiF4），一种专为深度学习设计的块浮点数据格式。每个HiF4单元包含64个4比特元素及32比特共享缩放元数据，平均每个数值占用4.5比特。元数据定义三级缩放层级，既能捕获组间与组内动态范围，又可提升表示空间的利用率。此外，64元素的较大分组规模使矩阵乘法能以高度定点化的方式执行，显著降低硬件面积与功耗。为评估所提格式，我们在LLaMA、Qwen、Mistral、DeepSeek-V3.1及LongCat等多个语言模型上开展推理实验。结果表明，在多种模型与多样化下游任务中，HiF4相比当前最优的NVFP4格式实现了更高的平均精度。

0

相关内容

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

专知会员服务

16+阅读 · 4月11日

不可错过！EPFL《训练大语言模型》课程

不可错过！EPFL《训练大语言模型》课程

专知会员服务

18+阅读 · 2025年4月25日

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

专知会员服务

29+阅读 · 2025年1月12日

Phi-4：微软最新的小型语言模型，专注于复杂推理

Phi-4：微软最新的小型语言模型，专注于复杂推理

专知会员服务

25+阅读 · 2024年12月14日

大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例

大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例

专知会员服务

54+阅读 · 2023年12月6日

MiniGPT-4：使用先进的大型语言模型提升 AI 视觉语言理解能力

MiniGPT-4：使用先进的大型语言模型提升 AI 视觉语言理解能力

专知会员服务

42+阅读 · 2023年10月1日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

可视化理解四元数，愿你不再掉头发

可视化理解四元数，愿你不再掉头发

计算机视觉life

31+阅读 · 2019年1月2日

Deeplearning4j 快速入门

Deeplearning4j 快速入门

人工智能头条

14+阅读 · 2018年12月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

Deeplearning4j的介绍与实例分享 | 公开课

Deeplearning4j的介绍与实例分享 | 公开课

AI研习社

14+阅读 · 2017年11月27日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

天元数学交流项目“光声与超声联合成像中的相关反演理论及其算法的研究”

国家自然科学基金

2+阅读 · 2017年12月31日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

ADAPT: Hybrid Prompt Optimization for LLM Feature Visualization

Arxiv

0+阅读 · 2月19日

FormationEval, an open multiple-choice benchmark for petroleum geoscience

Arxiv

0+阅读 · 2月14日

Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

Arxiv

0+阅读 · 2月13日

HiFloat4 Format for Language Model Inference

Arxiv

0+阅读 · 2月13日

ST4VLA: Spatially Guided Training for Vision-Language-Action Models

Arxiv

0+阅读 · 2月10日

HiFo-Prompt: Prompting with Hindsight and Foresight for LLM-based Automatic Heuristic Design

Arxiv

0+阅读 · 2月8日

Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning

Arxiv

0+阅读 · 2月7日

NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models

Arxiv

0+阅读 · 2月6日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

Opt4GPTQ: Co-Optimizing Memory and Computation for 4-bit GPTQ Quantized LLM Inference on Heterogeneous Platforms

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

专知会员服务

16+阅读 · 4月11日

不可错过！EPFL《训练大语言模型》课程

不可错过！EPFL《训练大语言模型》课程

专知会员服务

18+阅读 · 2025年4月25日

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

专知会员服务

29+阅读 · 2025年1月12日

Phi-4：微软最新的小型语言模型，专注于复杂推理

Phi-4：微软最新的小型语言模型，专注于复杂推理

专知会员服务

25+阅读 · 2024年12月14日

大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例

大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例

专知会员服务

54+阅读 · 2023年12月6日

MiniGPT-4：使用先进的大型语言模型提升 AI 视觉语言理解能力

MiniGPT-4：使用先进的大型语言模型提升 AI 视觉语言理解能力

专知会员服务

42+阅读 · 2023年10月1日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

可视化理解四元数，愿你不再掉头发

可视化理解四元数，愿你不再掉头发

计算机视觉life

31+阅读 · 2019年1月2日

Deeplearning4j 快速入门

Deeplearning4j 快速入门

人工智能头条

14+阅读 · 2018年12月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

Deeplearning4j的介绍与实例分享 | 公开课

Deeplearning4j的介绍与实例分享 | 公开课

AI研习社

14+阅读 · 2017年11月27日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

ADAPT: Hybrid Prompt Optimization for LLM Feature Visualization

Arxiv

0+阅读 · 2月19日

FormationEval, an open multiple-choice benchmark for petroleum geoscience

Arxiv

0+阅读 · 2月14日

Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

Arxiv

0+阅读 · 2月13日

HiFloat4 Format for Language Model Inference

Arxiv

0+阅读 · 2月13日

ST4VLA: Spatially Guided Training for Vision-Language-Action Models

Arxiv

0+阅读 · 2月10日

HiFo-Prompt: Prompting with Hindsight and Foresight for LLM-based Automatic Heuristic Design

Arxiv

0+阅读 · 2月8日

Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning

Arxiv

0+阅读 · 2月7日

NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models

Arxiv

0+阅读 · 2月6日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

Opt4GPTQ: Co-Optimizing Memory and Computation for 4-bit GPTQ Quantized LLM Inference on Heterogeneous Platforms

Arxiv

0+阅读 · 2月5日

相关基金

天元数学交流项目“光声与超声联合成像中的相关反演理论及其算法的研究”

国家自然科学基金

2+阅读 · 2017年12月31日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员