MailoHLS: Multi-Adapter Structure-Aware Learning for Pareto-Driven HLS Pragma Optimization - 专知论文

会员服务 ·

0

优化器 · MoDELS · 最优化 · Learning · 设计 ·

MailoHLS: Multi-Adapter Structure-Aware Learning for Pareto-Driven HLS Pragma Optimization

翻译：MailoHLS：基于多适配器结构感知的帕累托驱动HLS编译指示优化

Elena Vouvali,Dimosthenis Masouros,Aggelos Ferikoglou,Dimitrios Soudris,Sotirios Xydis

High-Level Synthesis (HLS) enables rapid development of FPGA accelerators, yet achieving high-quality results (QoR) remains challenging due to the large and irregular design space induced by compiler directives (a.k.a pragmas). Selecting effective configurations requires reasoning over complex interactions between program structure, memory behavior, and often conflicting objectives such as latency and resource utilization. Prior model-driven approaches exhibit limited generalization across kernels and fail to capture higher-level optimization intent. Recently, Large Language Models (LLMs) capture code semantics and high-level intent, but their sequential representations hinder modeling of structural dependencies and global trade-offs, leading to suboptimal HLS designs. We present MailoHLS, a hybrid framework that combines LLM-based semantic reasoning with GNN-based structural modeling for objective-aware directive optimization. By integrating structural embeddings via cross-attention and leveraging PEFT with objective-conditioned LoRA adapters and Pareto-driven optimization, MailoHLS enables joint reasoning over code semantics, structure, and design trade-offs. Across seen and unseen kernels, MailoHLS achieves up to 12.42x and 8.4x speedup (9.48x and 4.97x geometric mean) for latency optimization, consistently producing near-Pareto-optimal designs. On fully unseen applications, it reaches up to 10.2x speedup (6.58x geometric mean), outperforming high-end LLMs and prior approaches while narrowing the gap to the Pareto frontier.

翻译：高层次综合（HLS）能够快速开发FPGA加速器，但由于编译器指令（即编译指示）带来的庞大且不规则的设计空间，实现高质量结果（QoR）仍具有挑战性。选择有效配置需要推理程序结构、内存行为以及延迟和资源利用率等往往相互冲突的目标之间的复杂交互。先前的模型驱动方法在跨内核的泛化能力上存在局限，且无法捕捉高层优化意图。近来，大语言模型（LLM）能够捕获代码语义和高层意图，但其序列化表示阻碍了对结构依赖关系和全局权衡的建模，导致HLS设计次优。我们提出MailoHLS——一种结合LLM语义推理与GNN结构建模的混合框架，用于目标感知的指令优化。通过交叉注意力机制集成结构嵌入，并利用基于目标条件LoRA适配器的参数高效微调（PEFT）与帕累托驱动优化，MailoHLS实现了对代码语义、结构与设计权衡的联合推理。在已知和未知内核上，MailoHLS在延迟优化方面实现了最高12.42倍和8.4倍的加速比（几何均值分别为9.48倍和4.97倍），始终能生成接近帕累托最优的设计。在全未见过的应用中，它达到最高10.2倍加速比（几何均值6.58倍），优于高级LLM及先前方法，同时缩小了与帕累托前沿的差距。

0

相关内容

优化器

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

专知会员服务

5+阅读 · 2月20日

《自主机器人系统帕累托最优感知架构的多目标生成》2025最新100页

《自主机器人系统帕累托最优感知架构的多目标生成》2025最新100页

专知会员服务

24+阅读 · 2025年11月10日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

基于机器学习的FPGA电子设计自动化技术研究综述

基于机器学习的FPGA电子设计自动化技术研究综述

专知会员服务

21+阅读 · 2022年11月22日

【Google大脑Mangpo】自动调优生产机器学习编译器

【Google大脑Mangpo】自动调优生产机器学习编译器

专知会员服务

14+阅读 · 2022年7月6日

深度神经网络 FPGA 设计进展、实现与展望

深度神经网络 FPGA 设计进展、实现与展望

专知会员服务

59+阅读 · 2022年3月26日

深度神经网络FPGA设计进展、实现与展望

深度神经网络FPGA设计进展、实现与展望

专知会员服务

36+阅读 · 2022年3月21日

FPGA加速系统开发工具设计:综述与实践

FPGA加速系统开发工具设计:综述与实践

专知会员服务

69+阅读 · 2020年6月24日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

75+阅读 · 2019年10月19日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

39+阅读 · 2023年4月11日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

十种深度学习推荐系统代码实现，持续更新中！！！

十种深度学习推荐系统代码实现，持续更新中！！！

专知

113+阅读 · 2019年4月25日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月13日

NIPS 2018 | 作为多目标优化的多任务学习：寻找帕累托最优解

NIPS 2018 | 作为多目标优化的多任务学习：寻找帕累托最优解

极市平台

20+阅读 · 2018年10月29日

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

专知

27+阅读 · 2018年2月24日

今日头条推荐系统架构演进之路

今日头条推荐系统架构演进之路

QCon

32+阅读 · 2017年6月21日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Arxiv

0+阅读 · 6月11日

Programming Domain-Specific FPGA Hardblocks from HLS: An RTL Blackbox Approach

Arxiv

0+阅读 · 6月7日

DriftSched: Adaptive QoS-Aware Scheduling under Runtime Token Drift for Multi-Tenant GPU Inference

Arxiv

0+阅读 · 6月2日

Context-aware Simopt-Power: Using structural data with simulation metadata to optimise FPGA designs

Arxiv

0+阅读 · 5月23日

HyperParallel-MoE: Multi-Core Interleaved Scheduling for Fast MoE Training on Ascend NPUs

Arxiv

0+阅读 · 5月22日

DAE4HLS: Exposing Memory-Level Parallelism for High-Level Synthesis using Explicit Decoupling

Arxiv

0+阅读 · 5月22日

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

Arxiv

0+阅读 · 5月20日

QuPort: Topology-, Port-, and Congestion-Aware Compilation for Modular Multi-QPU Quantum Systems

Arxiv

0+阅读 · 5月12日

Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs

Arxiv

0+阅读 · 5月5日

VDCores: Resource Decoupled Programming and Execution for Asynchronous GPU

Arxiv

0+阅读 · 5月4日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

专知会员服务

5+阅读 · 2月20日

《自主机器人系统帕累托最优感知架构的多目标生成》2025最新100页

《自主机器人系统帕累托最优感知架构的多目标生成》2025最新100页

专知会员服务

24+阅读 · 2025年11月10日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

基于机器学习的FPGA电子设计自动化技术研究综述

基于机器学习的FPGA电子设计自动化技术研究综述

专知会员服务

21+阅读 · 2022年11月22日

【Google大脑Mangpo】自动调优生产机器学习编译器

【Google大脑Mangpo】自动调优生产机器学习编译器

专知会员服务

14+阅读 · 2022年7月6日

深度神经网络 FPGA 设计进展、实现与展望

深度神经网络 FPGA 设计进展、实现与展望

专知会员服务

59+阅读 · 2022年3月26日

深度神经网络FPGA设计进展、实现与展望

深度神经网络FPGA设计进展、实现与展望

专知会员服务

36+阅读 · 2022年3月21日

FPGA加速系统开发工具设计:综述与实践

FPGA加速系统开发工具设计:综述与实践

专知会员服务

69+阅读 · 2020年6月24日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

75+阅读 · 2019年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

39+阅读 · 2023年4月11日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

十种深度学习推荐系统代码实现，持续更新中！！！

十种深度学习推荐系统代码实现，持续更新中！！！

专知

113+阅读 · 2019年4月25日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月13日

NIPS 2018 | 作为多目标优化的多任务学习：寻找帕累托最优解

NIPS 2018 | 作为多目标优化的多任务学习：寻找帕累托最优解

极市平台

20+阅读 · 2018年10月29日

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

专知

27+阅读 · 2018年2月24日

今日头条推荐系统架构演进之路

今日头条推荐系统架构演进之路

QCon

32+阅读 · 2017年6月21日

相关论文

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Arxiv

0+阅读 · 6月11日

Programming Domain-Specific FPGA Hardblocks from HLS: An RTL Blackbox Approach

Arxiv

0+阅读 · 6月7日

DriftSched: Adaptive QoS-Aware Scheduling under Runtime Token Drift for Multi-Tenant GPU Inference

Arxiv

0+阅读 · 6月2日

Context-aware Simopt-Power: Using structural data with simulation metadata to optimise FPGA designs

Arxiv

0+阅读 · 5月23日

HyperParallel-MoE: Multi-Core Interleaved Scheduling for Fast MoE Training on Ascend NPUs

Arxiv

0+阅读 · 5月22日

DAE4HLS: Exposing Memory-Level Parallelism for High-Level Synthesis using Explicit Decoupling

Arxiv

0+阅读 · 5月22日

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

Arxiv

0+阅读 · 5月20日

QuPort: Topology-, Port-, and Congestion-Aware Compilation for Modular Multi-QPU Quantum Systems

Arxiv

0+阅读 · 5月12日

Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs

Arxiv

0+阅读 · 5月5日

VDCores: Resource Decoupled Programming and Execution for Asynchronous GPU

Arxiv

0+阅读 · 5月4日

相关基金

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员