SHARe-KAN: Post-Training Vector Quantization for Cache-Resident KAN Inference - 专知论文

会员服务 ·

0

存储 · 精度 · INT8 · 后训练 · 边缘 ·

SHARe-KAN: Post-Training Vector Quantization for Cache-Resident KAN Inference

翻译：SHARe-KAN：面向缓存驻留KAN推理的后训练向量量化

Pre-trained Vision Kolmogorov-Arnold Networks (KANs) store a dense B-spline grid on every edge, inflating prediction-head parameter counts by more than 140X relative to a comparable MLP and pushing inference into a memory-bound regime on edge accelerators. Standard magnitude pruning fails on these pre-trained models: zero-shot sparsity collapses accuracy, and restoring it requires an iterative fine-tuning loop that is impractical in deployment settings. We present SHARe-KAN, a post-training compiler that compresses spline coefficients via a Gain-Shape-Bias decomposition with a layer-shared codebook, paired with LUTHAM, an ExecuTorch runtime that maps the codebook into on-chip L2. On PASCAL VOC detection with a ResNet-50 backbone, SHARe-KAN Int8 reaches 9.3X storage compression over the Dense KAN baseline (6.32 MB vs. 58.67 MB prediction head) at a 2.0 point in-domain accuracy cost (80.22% vs. 82.22% mAP), with no retraining. Zero-shot transfer to COCO retains 88.9% of the Dense KAN mAP; most of this gap comes from the VQ clustering step itself, and further quantization from FP32 to Int8 costs only 1.3 retention points. The value of the approach compounds at scale: at 50 task heads, Dense KAN prediction-head storage reaches 2.9 GB while SHARe-KAN Int8 requires 211 MB, a 13.9X reduction that brings multi-expert KAN deployment within the memory budgets of contemporary edge silicon.

翻译：预训练的视觉Kolmogorov-Arnold网络（KAN）在每条边上存储稠密的B样条网格，导致预测头的参数量相较于同类MLP膨胀超过140倍，并将边缘加速器上的推理推向内存受限状态。标准幅值剪枝在这些预训练模型上失效：零样本稀疏性会导致精度骤降，而恢复精度需要迭代微调流程，这在部署场景中不切实际。我们提出SHARe-KAN——一种后训练编译器，通过增益-形状-偏差分解结合层共享码本来压缩样条系数，并搭配LUTHAM——一种将码本映射到片上L2缓存的ExecuTorch运行时。基于ResNet-50骨干网络的PASCAL VOC检测任务中，SHARe-KAN Int8相比稠密KAN基线实现了9.3倍存储压缩（预测头从58.67 MB降至6.32 MB），域内精度代价为2.0个百分点（mAP从82.22%降至80.22%），且无需重训练。零样本迁移至COCO时保留稠密KAN mAP的88.9%；此差距主要源于VQ聚类步骤本身，而FP32到Int8的进一步量化仅造成1.3个保留点损失。该方法的价值随规模放大而凸显：在50个任务头场景下，稠密KAN预测头存储达2.9 GB，而SHARe-KAN Int8仅需211 MB（13.9倍缩减），使多专家KAN部署可匹配当代边缘芯片的内存预算。

0

相关内容

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

GNN如何分布式？中科院计算所最新《图神经网络分布式训练》综述，阐述分布式GNN训练技术

GNN如何分布式？中科院计算所最新《图神经网络分布式训练》综述，阐述分布式GNN训练技术

专知会员服务

41+阅读 · 2022年11月14日

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

专知会员服务

55+阅读 · 2022年11月1日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知会员服务

20+阅读 · 2021年12月21日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【KDD2020】基于矩阵和张量因子分解的高效自动机器学习搜索，Efficient AutoML Pipeline Search with Matrix and Tensor Factorization

【KDD2020】基于矩阵和张量因子分解的高效自动机器学习搜索，Efficient AutoML Pipeline Search with Matrix and Tensor Factorization

专知会员服务

13+阅读 · 2020年6月10日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

案例分享 | TensorFlow 大规模稀疏模型异步训练的分布式优化

案例分享 | TensorFlow 大规模稀疏模型异步训练的分布式优化

TensorFlow

14+阅读 · 2020年7月22日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

Tensorflow GNN最佳实践：tf_geometric（附图自编码器GAE完整代码）

Tensorflow GNN最佳实践：tf_geometric（附图自编码器GAE完整代码）

图与推荐

130+阅读 · 2020年2月6日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

174+阅读 · 2019年10月28日

KGCN：使用TensorFlow进行知识图谱的机器学习

KGCN：使用TensorFlow进行知识图谱的机器学习

专知

16+阅读 · 2019年8月4日

学界 | 图神经网络+池化模块，斯坦福等提出层级图表征学习

学界 | 图神经网络+池化模块，斯坦福等提出层级图表征学习

机器之心

30+阅读 · 2018年7月16日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

【网络节点表示学习教程】在向量空间中启用网络分析和推理，清华大学崔鹏博士最新分享

【网络节点表示学习教程】在向量空间中启用网络分析和推理，清华大学崔鹏博士最新分享

专知

11+阅读 · 2018年2月9日

基于Xampling的Gabor框架条件下的窄脉冲信号采集方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于分布式∑/△与扩展量化的红外焦平面阵列像素级/列级混合式模数转换方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

QuantKAN: A Unified Quantization Framework for Kolmogorov Arnold Networks

Arxiv

0+阅读 · 6月15日

Reinforcement Learning for LLM-based Event Forecasting

Arxiv

0+阅读 · 6月14日

Shift-Invariant Attribute Scoring for Kolmogorov-Arnold Networks via Shapley Value

Arxiv

0+阅读 · 6月12日

TWLA: Achieving Ternary Weights and Low-Bit Activations for LLMs via Post-Training Quantization

Arxiv

0+阅读 · 6月12日

Finding Sparse Subnetworks in One Training Cycle via Progressive Magnitude-Based Pruning

Arxiv

0+阅读 · 6月10日

Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving

Arxiv

0+阅读 · 6月4日

MapPFN: Learning Causal Perturbation Maps in Context

Arxiv

0+阅读 · 4月21日

Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference

Arxiv

0+阅读 · 4月19日

From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space

Arxiv

0+阅读 · 4月15日

HybridKV: Hybrid KV Cache Compression for Efficient Multimodal Large Language Model Inference

Arxiv

0+阅读 · 4月7日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

8+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

3+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

7+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

6+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

15+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

12+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

9+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

7+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

9+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

8+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

10+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

9+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

GNN如何分布式？中科院计算所最新《图神经网络分布式训练》综述，阐述分布式GNN训练技术

GNN如何分布式？中科院计算所最新《图神经网络分布式训练》综述，阐述分布式GNN训练技术

专知会员服务

41+阅读 · 2022年11月14日

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

专知会员服务

55+阅读 · 2022年11月1日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知会员服务

20+阅读 · 2021年12月21日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【KDD2020】基于矩阵和张量因子分解的高效自动机器学习搜索，Efficient AutoML Pipeline Search with Matrix and Tensor Factorization

【KDD2020】基于矩阵和张量因子分解的高效自动机器学习搜索，Efficient AutoML Pipeline Search with Matrix and Tensor Factorization

专知会员服务

13+阅读 · 2020年6月10日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

案例分享 | TensorFlow 大规模稀疏模型异步训练的分布式优化

案例分享 | TensorFlow 大规模稀疏模型异步训练的分布式优化

TensorFlow

14+阅读 · 2020年7月22日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

Tensorflow GNN最佳实践：tf_geometric（附图自编码器GAE完整代码）

Tensorflow GNN最佳实践：tf_geometric（附图自编码器GAE完整代码）

图与推荐

130+阅读 · 2020年2月6日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

174+阅读 · 2019年10月28日

KGCN：使用TensorFlow进行知识图谱的机器学习

KGCN：使用TensorFlow进行知识图谱的机器学习

专知

16+阅读 · 2019年8月4日

学界 | 图神经网络+池化模块，斯坦福等提出层级图表征学习

学界 | 图神经网络+池化模块，斯坦福等提出层级图表征学习

机器之心

30+阅读 · 2018年7月16日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

【网络节点表示学习教程】在向量空间中启用网络分析和推理，清华大学崔鹏博士最新分享

【网络节点表示学习教程】在向量空间中启用网络分析和推理，清华大学崔鹏博士最新分享

专知

11+阅读 · 2018年2月9日

相关论文

QuantKAN: A Unified Quantization Framework for Kolmogorov Arnold Networks

Arxiv

0+阅读 · 6月15日

Reinforcement Learning for LLM-based Event Forecasting

Arxiv

0+阅读 · 6月14日

Shift-Invariant Attribute Scoring for Kolmogorov-Arnold Networks via Shapley Value

Arxiv

0+阅读 · 6月12日

TWLA: Achieving Ternary Weights and Low-Bit Activations for LLMs via Post-Training Quantization

Arxiv

0+阅读 · 6月12日

Finding Sparse Subnetworks in One Training Cycle via Progressive Magnitude-Based Pruning

Arxiv

0+阅读 · 6月10日

Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving

Arxiv

0+阅读 · 6月4日

MapPFN: Learning Causal Perturbation Maps in Context

Arxiv

0+阅读 · 4月21日

Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference

Arxiv

0+阅读 · 4月19日

From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space

Arxiv

0+阅读 · 4月15日

HybridKV: Hybrid KV Cache Compression for Efficient Multimodal Large Language Model Inference

Arxiv

0+阅读 · 4月7日

相关基金

基于Xampling的Gabor框架条件下的窄脉冲信号采集方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于分布式∑/△与扩展量化的红外焦平面阵列像素级/列级混合式模数转换方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员