SPARK: Spatial Policy-driven Adaptive Reinforcement learning for Knowledge distillation - 专知论文

会员服务 ·

0

蒸馏 · 知识 · Spark · 自适应 · 知识蒸馏 ·

SPARK: Spatial Policy-driven Adaptive Reinforcement learning for Knowledge distillation

翻译：[翻译标题] SPARK：面向知识蒸馏的空间策略驱动自适应强化学习方法

Mohamed Jismy Aashik Rasool,Shabir Ahmad,Gisong Oh,Teag Kuen Whangbo

from arxiv, 13 pages, 3 figures,5 tables ,BMVC submission

Low-bit quantization enables deployment of image restoration (IR) networks on resource-constrained devices, but introduces rounding noise that disproportionately degrades high-frequency regions such as edges and fine textures. Existing knowledge distillation (KD) methods apply distillation signals uniformly across all spatial locations, overlooking the varying reconstruction difficulty across image regions. To address this, we propose SPARK (Spatial Policy-driven Adaptive Reinforcement Learning for Knowledge Distillation), a framework that adaptively allocates distillation effort using a lightweight reinforcement learning (RL) policy network. At each training step, a difficulty feature extractor computes four signals, namely Laplacian variance, pixel variance, student reconstruction error, and teacher-student knowledge gap, which are fed into a compact policy CNN that produces a stochastic spatial weight map to modulate the KD loss during quantization-aware training (QAT). SPARK is IR task-agnostic, adds no inference cost, and integrates into any existing QAT pipeline without architectural changes. Experiments on benchmark datasets demonstrate that SPARK consistently outperforms PTQ, QAT, and state-of-the-art (SOTA) KD approaches across multiple student architectures, achieving reconstruction quality closest to the full-precision teacher under significant computational constraints.

翻译：[翻译摘要] 低比特量化使得图像复原网络能够部署在资源受限设备上，但引入的舍入噪声会不成比例地降低边缘和精细纹理等高频率区域的性能。现有知识蒸馏方法对所有空间位置施加均匀的蒸馏信号，忽略了不同图像区域的重建难度差异。为此，我们提出SPARK（面向知识蒸馏的空间策略驱动自适应强化学习）框架，该框架通过轻量级强化学习策略网络自适应地分配蒸馏注意力。在每个训练步骤中，困难度特征提取器计算四个信号（拉普拉斯方差、像素方差、学生网络重建误差及师生知识差距），这些信号输入紧凑的策略型卷积神经网络以产生随机空间权重图，从而在量化感知训练期间调节知识蒸馏损失。SPARK具有图像复原任务无关性、不增加推理开销，并可在无需修改架构的情况下集成至任何现有量化感知训练流程。基准数据集实验表明，在显著计算约束下，SPARK在多种学生网络架构上持续优于后训练量化、量化感知训练及最先进的知识蒸馏方法，实现最接近全精度教师网络的重建质量。

0

相关内容

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

专知会员服务

39+阅读 · 2023年8月6日

【2023新书】使用Spark扩展机器学习:使用MLlib、TensorFlow和PyTorch实现分布式机器学习530页pdf

【2023新书】使用Spark扩展机器学习:使用MLlib、TensorFlow和PyTorch实现分布式机器学习530页pdf

专知会员服务

80+阅读 · 2023年3月24日

深度学习中知识蒸馏研究综述

深度学习中知识蒸馏研究综述

专知会员服务

109+阅读 · 2022年8月13日

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

专知会员服务

28+阅读 · 2021年12月4日

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

专知会员服务

158+阅读 · 2020年6月14日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知会员服务

96+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

专知会员服务

115+阅读 · 2020年2月24日

【O'Reilly AI Conference 2019】使用GPU和Docker容器进行Horovod和Spark深度学习（Deep learning with Horovod and Spark using GPUs and Docker containers），BlueData的联合创始人兼首席架构师Thomas Phelan

【O'Reilly AI Conference 2019】使用GPU和Docker容器进行Horovod和Spark深度学习（Deep learning with Horovod and Spark using GPUs and Docker containers），BlueData的联合创始人兼首席架构师Thomas Phelan

专知会员服务

21+阅读 · 2019年11月5日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

社区分享 | Spark 玩转 TensorFlow 2.0

社区分享 | Spark 玩转 TensorFlow 2.0

TensorFlow

15+阅读 · 2020年3月18日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

专知

27+阅读 · 2017年12月17日

最新Apache Spark平台的NLP库,助你轻松搞定自然语言处理任务

最新Apache Spark平台的NLP库,助你轻松搞定自然语言处理任务

专知

11+阅读 · 2017年11月29日

Spark机器学习：矩阵及推荐算法

Spark机器学习：矩阵及推荐算法

LibRec智能推荐

16+阅读 · 2017年8月3日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于伴随方法、改进文化基因算法和kriging代理模型的涡扇发动机短舱减噪优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

基于认知技术的分层异构网络能效分析与资源分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

SPARK: Security Knowledge Priming and Representation-Guided Knowledge Activation for LLM-based Secure Code Generation

Arxiv

0+阅读 · 6月15日

TabKD: Tabular Knowledge Distillation through Interaction Diversity of Learned Feature Bins

Arxiv

0+阅读 · 6月11日

RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation

Arxiv

0+阅读 · 6月10日

FreqKD: Frequency-Decoupled Cross-Modal Knowledge Distillation for Infrared Object Detection

Arxiv

0+阅读 · 6月10日

ASKD-Whisper: Adaptive Self-knowledge Distillation for Efficient and Low-Latency Automatic Speech Recognition

Arxiv

0+阅读 · 6月1日

TwinQuant: Learnable Subspace Decomposition for 4-Bit LLM Quantization

Arxiv

0+阅读 · 6月1日

TrajTok: Adaptive Spatial Tokenization for Trajectory Representation Learning

Arxiv

0+阅读 · 5月19日

Towards Distillation Guarantees under Algorithmic Alignment for Combinatorial Optimization

Arxiv

0+阅读 · 5月19日

Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

Arxiv

0+阅读 · 5月7日

SparKV: Overhead-Aware KV Cache Loading for Efficient On-Device LLM Inference

Arxiv

0+阅读 · 5月4日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

7+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

专知会员服务

39+阅读 · 2023年8月6日

【2023新书】使用Spark扩展机器学习:使用MLlib、TensorFlow和PyTorch实现分布式机器学习530页pdf

【2023新书】使用Spark扩展机器学习:使用MLlib、TensorFlow和PyTorch实现分布式机器学习530页pdf

专知会员服务

80+阅读 · 2023年3月24日

深度学习中知识蒸馏研究综述

深度学习中知识蒸馏研究综述

专知会员服务

109+阅读 · 2022年8月13日

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

专知会员服务

28+阅读 · 2021年12月4日

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

专知会员服务

158+阅读 · 2020年6月14日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知会员服务

96+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

专知会员服务

115+阅读 · 2020年2月24日

【O'Reilly AI Conference 2019】使用GPU和Docker容器进行Horovod和Spark深度学习（Deep learning with Horovod and Spark using GPUs and Docker containers），BlueData的联合创始人兼首席架构师Thomas Phelan

【O'Reilly AI Conference 2019】使用GPU和Docker容器进行Horovod和Spark深度学习（Deep learning with Horovod and Spark using GPUs and Docker containers），BlueData的联合创始人兼首席架构师Thomas Phelan

专知会员服务

21+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

社区分享 | Spark 玩转 TensorFlow 2.0

社区分享 | Spark 玩转 TensorFlow 2.0

TensorFlow

15+阅读 · 2020年3月18日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

专知

27+阅读 · 2017年12月17日

最新Apache Spark平台的NLP库,助你轻松搞定自然语言处理任务

最新Apache Spark平台的NLP库,助你轻松搞定自然语言处理任务

专知

11+阅读 · 2017年11月29日

Spark机器学习：矩阵及推荐算法

Spark机器学习：矩阵及推荐算法

LibRec智能推荐

16+阅读 · 2017年8月3日

相关论文

SPARK: Security Knowledge Priming and Representation-Guided Knowledge Activation for LLM-based Secure Code Generation

Arxiv

0+阅读 · 6月15日

TabKD: Tabular Knowledge Distillation through Interaction Diversity of Learned Feature Bins

Arxiv

0+阅读 · 6月11日

RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation

Arxiv

0+阅读 · 6月10日

FreqKD: Frequency-Decoupled Cross-Modal Knowledge Distillation for Infrared Object Detection

Arxiv

0+阅读 · 6月10日

ASKD-Whisper: Adaptive Self-knowledge Distillation for Efficient and Low-Latency Automatic Speech Recognition

Arxiv

0+阅读 · 6月1日

TwinQuant: Learnable Subspace Decomposition for 4-Bit LLM Quantization

Arxiv

0+阅读 · 6月1日

TrajTok: Adaptive Spatial Tokenization for Trajectory Representation Learning

Arxiv

0+阅读 · 5月19日

Towards Distillation Guarantees under Algorithmic Alignment for Combinatorial Optimization

Arxiv

0+阅读 · 5月19日

Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

Arxiv

0+阅读 · 5月7日

SparKV: Overhead-Aware KV Cache Loading for Efficient On-Device LLM Inference

Arxiv

0+阅读 · 5月4日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于伴随方法、改进文化基因算法和kriging代理模型的涡扇发动机短舱减噪优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

基于认知技术的分层异构网络能效分析与资源分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员