Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis - 专知论文

会员服务 ·

0

合成 · NPU · 冷启动 · 编程 · 系统 ·

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

翻译：面向冷启动草拟与持续优化：一种基于价值驱动记忆的方法及其在NPU内核合成中的应用

Yujie Zheng,Zhuo Li,Shengtao Zhang,Hanjing Wang,Junjie Sheng,Jiaqian Wang,Junchi Yan,Weinan Zhang,Ying Wen,Bo Tang,Muning Wen

Deploying Large Language Models to data-scarce programming domains poses significant challenges, particularly for kernel synthesis on emerging Domain-Specific Architectures where a "Data Wall" limits available training data. While models excel on data-rich platforms like CUDA, they suffer catastrophic performance drops on data-scarce ecosystems such as NPU programming. To overcome this cold-start barrier without expensive fine-tuning, we introduce EvoKernel, a self-evolving agentic framework that automates the lifecycle of kernel synthesis from initial drafting to continual refining. EvoKernel addresses this by formulating the synthesis process as a memory-based reinforcement learning task. Through a novel value-driven retrieval mechanism, it learns stage-specific Q-values that prioritize experiences based on their contribution to the current objective, whether bootstrapping a feasible draft or iteratively refining latency. Furthermore, by enabling cross-task memory sharing, the agent generalizes insights from simple to complex operators. By building an NPU variant of KernelBench and evaluating on it, EvoKernel improves frontier models' correctness from 11.0% to 83.0% and achieves a median speedup of 3.60x over initial drafts through iterative refinement. This demonstrates that value-guided experience accumulation allows general-purpose models to master the kernel synthesis task on niche hardware ecosystems. Our official page is available at https://evokernel.zhuo.li.

翻译：将大型语言模型部署到数据稀缺的编程领域面临重大挑战，尤其是在新兴领域特定架构上进行内核合成时，"数据墙"限制了可用训练数据。尽管模型在CUDA等数据丰富的平台上表现出色，但在NPU编程等数据稀缺的生态系统中却遭遇性能灾难性下降。为了在不进行昂贵微调的情况下克服这一冷启动障碍，我们提出了EvoKernel——一个自进化的智能体框架，实现了从初始草拟到持续优化的内核合成全生命周期自动化。EvoKernel通过将合成过程构建为基于记忆的强化学习任务来解决此问题。通过新颖的价值驱动检索机制，它学习阶段特定的Q值，根据经验对当前目标（无论是引导可行草案还是迭代优化延迟）的贡献度来优先选择经验。此外，通过实现跨任务记忆共享，智能体能够将简单算子的洞察泛化至复杂算子。通过构建KernelBench的NPU变体并在其上评估，EvoKernel将前沿模型的正确率从11.0%提升至83.0%，并通过迭代优化实现了相对于初始草案3.60倍的中位数加速比。这表明价值引导的经验积累使得通用模型能够掌握小众硬件生态系统的内核合成任务。我们的官方页面位于 https://evokernel.zhuo.li。

0

相关内容

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

专知会员服务

37+阅读 · 2025年11月8日

生成模型中持续学习的综合综述

生成模型中持续学习的综合综述

专知会员服务

25+阅读 · 2025年6月17日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

44+阅读 · 2024年10月19日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

63+阅读 · 2024年7月5日

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

专知会员服务

24+阅读 · 2024年5月19日

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

专知会员服务

78+阅读 · 2023年12月27日

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

专知会员服务

35+阅读 · 2022年9月17日

【CMU博士论文】通过记忆的元强化学习

【CMU博士论文】通过记忆的元强化学习

专知会员服务

58+阅读 · 2021年10月16日

融合零样本学习和小样本学习的弱监督机器学习方法综述

专知会员服务

113+阅读 · 2020年3月20日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

56+阅读 · 2022年6月2日

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

专知

20+阅读 · 2020年2月28日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

基于小样本学习的意图识别冷启动

基于小样本学习的意图识别冷启动

PaperWeekly

11+阅读 · 2019年5月12日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法

【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法

新智元

35+阅读 · 2017年9月10日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

KernelFoundry: Hardware-aware evolutionary GPU kernel optimization

Arxiv

0+阅读 · 3月12日

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Arxiv

0+阅读 · 3月10日

TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design

Arxiv

0+阅读 · 2月13日

OptiML: An End-to-End Framework for Program Synthesis and CUDA Kernel Optimization

Arxiv

0+阅读 · 2月12日

MoToRec: Sparse-Regularized Multimodal Tokenization for Cold-Start Recommendation

Arxiv

0+阅读 · 2月11日

Fine-Tuning GPT-5 for GPU Kernel Generation

Arxiv

0+阅读 · 2月11日

Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

Arxiv

0+阅读 · 2月6日

Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

Arxiv

0+阅读 · 2月5日

Self-Improving Pretraining: using post-trained models to pretrain better models

Arxiv

0+阅读 · 2月4日

MemAscend: System Memory Optimization for SSD-Offloaded LLM Fine-Tuning

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

4+阅读 · 今天12:53

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

3+阅读 · 今天12:39

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

2+阅读 · 今天12:32

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

1+阅读 · 今天12:25

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

1+阅读 · 今天12:14

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

0+阅读 · 今天12:08

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

4+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

11+阅读 · 7月22日

相关VIP内容

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

专知会员服务

37+阅读 · 2025年11月8日

生成模型中持续学习的综合综述

生成模型中持续学习的综合综述

专知会员服务

25+阅读 · 2025年6月17日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

44+阅读 · 2024年10月19日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

63+阅读 · 2024年7月5日

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

专知会员服务

24+阅读 · 2024年5月19日

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

专知会员服务

78+阅读 · 2023年12月27日

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

专知会员服务

35+阅读 · 2022年9月17日

【CMU博士论文】通过记忆的元强化学习

【CMU博士论文】通过记忆的元强化学习

专知会员服务

58+阅读 · 2021年10月16日

融合零样本学习和小样本学习的弱监督机器学习方法综述

专知会员服务

113+阅读 · 2020年3月20日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

乌克兰纵深打击如何重塑俄罗斯的战略选择

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

56+阅读 · 2022年6月2日

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

专知

20+阅读 · 2020年2月28日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

基于小样本学习的意图识别冷启动

基于小样本学习的意图识别冷启动

PaperWeekly

11+阅读 · 2019年5月12日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法

【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法

新智元

35+阅读 · 2017年9月10日

相关论文

KernelFoundry: Hardware-aware evolutionary GPU kernel optimization

Arxiv

0+阅读 · 3月12日

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Arxiv

0+阅读 · 3月10日

TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design

Arxiv

0+阅读 · 2月13日

OptiML: An End-to-End Framework for Program Synthesis and CUDA Kernel Optimization

Arxiv

0+阅读 · 2月12日

MoToRec: Sparse-Regularized Multimodal Tokenization for Cold-Start Recommendation

Arxiv

0+阅读 · 2月11日

Fine-Tuning GPT-5 for GPU Kernel Generation

Arxiv

0+阅读 · 2月11日

Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

Arxiv

0+阅读 · 2月6日

Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

Arxiv

0+阅读 · 2月5日

Self-Improving Pretraining: using post-trained models to pretrain better models

Arxiv

0+阅读 · 2月4日

MemAscend: System Memory Optimization for SSD-Offloaded LLM Fine-Tuning

Arxiv

0+阅读 · 1月31日

相关基金

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员