cuGenOpt: A GPU-Accelerated General-Purpose Metaheuristic Framework for Combinatorial Optimization - 专知论文

会员服务 ·

0

GPU · 元启发式 · 启发式 · CUDA · 代码 ·

cuGenOpt: A GPU-Accelerated General-Purpose Metaheuristic Framework for Combinatorial Optimization

翻译：cuGenOpt：面向组合优化的GPU加速通用元启发式框架

from arxiv, 28 pages, 9 figures. Code available at https://github.com/L-yang-yang/cugenopt

Combinatorial optimization problems arise in logistics, scheduling, and resource allocation, yet existing approaches face a fundamental trade-off among generality, performance, and usability. We present cuGenOpt, a GPU-accelerated general-purpose metaheuristic framework that addresses all three dimensions simultaneously. At the engine level, cuGenOpt adopts a "one block evolves one solution" CUDA architecture with a unified encoding abstraction (permutation, binary, integer), a two-level adaptive operator selection mechanism, and hardware-aware resource management. At the extensibility level, a user-defined operator registration interface allows domain experts to inject problem-specific CUDA search operators. At the usability level, a JIT compilation pipeline exposes the framework as a pure-Python API, and an LLM-based modeling assistant converts natural-language problem descriptions into executable solver code. Experiments across five thematic suites on three GPU architectures (T4, V100, A800) show that cuGenOpt outperforms general MIP solvers by orders of magnitude, achieves competitive quality against specialized solvers on instances up to n=150, and attains 4.73% gap on TSP-442 within 30s. Twelve problem types spanning five encoding variants are solved to optimality. Framework-level optimizations cumulatively reduce pcb442 gap from 36% to 4.73% and boost VRPTW throughput by 75-81%. Code: https://github.com/L-yang-yang/cugenopt

翻译：组合优化问题广泛存在于物流、调度和资源分配等领域，但现有方法在通用性、性能和可用性三者之间面临根本性权衡。我们提出cuGenOpt，一个同时兼顾这三个维度的GPU加速通用元启发式框架。在引擎层面，cuGenOpt采用"一个线程块进化一个解"的CUDA架构，并整合了统一编码抽象（排列、二进制、整数）、两级自适应算子选择机制以及硬件感知的资源管理策略。在可扩展性层面，用户自定义算子注册接口允许领域专家注入面向特定问题的CUDA搜索算子。在可用性层面，即时编译流水线将该框架以纯Python API形式呈现，并配备基于大语言模型的建模助手，可将自然语言问题描述转化为可执行的求解器代码。在三种GPU架构（T4、V100、A800）上针对五个主题套件的实验表明：cuGenOpt的求解性能比通用MIP求解器高出数个数量级；在规模达n=150的实例上与专用求解器相比具有竞争力；可在30秒内对TSP-442实例达到4.73%的优化差距。涉及五种编码变体的十二种问题类型均能求得最优解。框架级优化累积将pcb442的优化差距从36%降至4.73%，并将VRPTW吞吐量提升75-81%。代码地址：https://github.com/L-yang-yang/cugenopt

0

相关内容

GPU

《多智能体架构中实现多目标与超多目标问题的元启发式混合算法研究》183页

《多智能体架构中实现多目标与超多目标问题的元启发式混合算法研究》183页

专知会员服务

19+阅读 · 5月16日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知会员服务

40+阅读 · 2023年4月10日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

机器学习组合优化

机器学习组合优化

专知会员服务

111+阅读 · 2021年2月16日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

GitHub趋势榜第一：TensorFlow+PyTorch深度学习资源大汇总

GitHub趋势榜第一：TensorFlow+PyTorch深度学习资源大汇总

新智元

19+阅读 · 2019年6月8日

Github热门图深度学习（GraphDL）源码与框架

Github热门图深度学习（GraphDL）源码与框架

新智元

21+阅读 · 2019年3月19日

【干货】5个最新图像合成GAN架构解读：核心理念、关键成就、商业化路径

【干货】5个最新图像合成GAN架构解读：核心理念、关键成就、商业化路径

GAN生成式对抗网络

12+阅读 · 2019年3月17日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

新智元

17+阅读 · 2019年3月10日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

Caffe 深度学习框架上手教程

Caffe 深度学习框架上手教程

黑龙江大学自然语言处理实验室

14+阅读 · 2016年6月12日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下支持虚拟集群的跨层协同调度机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

PipeWeave: Synergizing Analytical and Learning Models for Unified GPU Performance Prediction

Arxiv

0+阅读 · 4月28日

FlashFolio: A GPU-Accelerated Solver for Portfolio Optimization

Arxiv

0+阅读 · 4月24日

Record-Remix-Replay: Hierarchical GPU Kernel Optimization using Evolutionary Search

Arxiv

0+阅读 · 4月13日

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Arxiv

0+阅读 · 4月6日

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Arxiv

0+阅读 · 4月1日

Differentiable Initialization-Accelerated CPU-GPU Hybrid Combinatorial Scheduling

Arxiv

0+阅读 · 3月30日

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

Arxiv

0+阅读 · 3月3日

CUCo: An Agentic Framework for Compute and Communication Co-design

Arxiv

0+阅读 · 3月2日

GRAU: Generic Reconfigurable Activation Unit Design for Neural Network Hardware Accelerators

Arxiv

0+阅读 · 2月25日

cuRPQ: A High-Performance GPU-Based Framework for Processing Regular and Conjunctive Regular Path Queries

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《多智能体架构中实现多目标与超多目标问题的元启发式混合算法研究》183页

《多智能体架构中实现多目标与超多目标问题的元启发式混合算法研究》183页

专知会员服务

19+阅读 · 5月16日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知会员服务

40+阅读 · 2023年4月10日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

机器学习组合优化

机器学习组合优化

专知会员服务

111+阅读 · 2021年2月16日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

GitHub趋势榜第一：TensorFlow+PyTorch深度学习资源大汇总

GitHub趋势榜第一：TensorFlow+PyTorch深度学习资源大汇总

新智元

19+阅读 · 2019年6月8日

Github热门图深度学习（GraphDL）源码与框架

Github热门图深度学习（GraphDL）源码与框架

新智元

21+阅读 · 2019年3月19日

【干货】5个最新图像合成GAN架构解读：核心理念、关键成就、商业化路径

【干货】5个最新图像合成GAN架构解读：核心理念、关键成就、商业化路径

GAN生成式对抗网络

12+阅读 · 2019年3月17日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

新智元

17+阅读 · 2019年3月10日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

Caffe 深度学习框架上手教程

Caffe 深度学习框架上手教程

黑龙江大学自然语言处理实验室

14+阅读 · 2016年6月12日

相关论文

PipeWeave: Synergizing Analytical and Learning Models for Unified GPU Performance Prediction

Arxiv

0+阅读 · 4月28日

FlashFolio: A GPU-Accelerated Solver for Portfolio Optimization

Arxiv

0+阅读 · 4月24日

Record-Remix-Replay: Hierarchical GPU Kernel Optimization using Evolutionary Search

Arxiv

0+阅读 · 4月13日

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Arxiv

0+阅读 · 4月6日

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Arxiv

0+阅读 · 4月1日

Differentiable Initialization-Accelerated CPU-GPU Hybrid Combinatorial Scheduling

Arxiv

0+阅读 · 3月30日

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

Arxiv

0+阅读 · 3月3日

CUCo: An Agentic Framework for Compute and Communication Co-design

Arxiv

0+阅读 · 3月2日

GRAU: Generic Reconfigurable Activation Unit Design for Neural Network Hardware Accelerators

Arxiv

0+阅读 · 2月25日

cuRPQ: A High-Performance GPU-Based Framework for Processing Regular and Conjunctive Regular Path Queries

Arxiv

0+阅读 · 2月24日

相关基金

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下支持虚拟集群的跨层协同调度机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员