QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation - 专知论文

会员服务 ·

0

代码 · 代码生成 · 基准 · 得分 · 大语言模型 ·

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

翻译：QuanBench+：面向基于LLM量子代码生成的统一多框架基准

Ali Slim,Haydar Hamieh,Jawad Kotaich,Yehya Ghosn,Mahdi Chehimi,Ammar Mohanna,Hasan Abed Al Kader Hammoud,Bernard Ghanem

from arxiv, 24 pages total, 25 figures, 5 tables, including supplementary material. Accepted to the ICLR 2026 Workshop on I Can't Believe It's Not Better

Large Language Models (LLMs) are increasingly used for code generation, yet quantum code generation is still evaluated mostly within single frameworks, making it difficult to separate quantum reasoning from framework familiarity. We introduce QuanBench+, a unified benchmark spanning Qiskit, PennyLane, and Cirq, with 42 aligned tasks covering quantum algorithms, gate decomposition, and state preparation. We evaluate models with executable functional tests, report Pass@1 and Pass@5, and use KL-divergence-based acceptance for probabilistic outputs. We additionally study Pass@1 after feedback-based repair, where a model may revise code after a runtime error or wrong answer. Across frameworks, the strongest one-shot scores reach 59.5% in Qiskit, 54.8% in Cirq, and 42.9% in PennyLane; with feedback-based repair, the best scores rise to 83.3%, 76.2%, and 66.7%, respectively. These results show clear progress, but also that reliable multi-framework quantum code generation remains unsolved and still depends strongly on framework-specific knowledge.

翻译：大型语言模型（LLM）日益广泛用于代码生成，然而量子代码生成目前仍主要在单一框架内评估，这难以区分量子推理能力与框架熟悉程度。我们提出QuanBench+，这是一个涵盖Qiskit、PennyLane和Cirq的统-基准测试，包含42个对齐任务，覆盖量子算法、量子门分解和量子态制备。我们通过可执行功能测试评估模型，报告Pass@1和Pass@5指标，并采用基于KL散度的接受机制处理概率性输出。我们进一步研究了基于反馈修复后的Pass@1性能，即模型在遭遇运行时错误或错误答案时可修改代码。跨框架比较显示，最强单次得分在Qiskit中达59.5%，Cirq中54.8%，PennyLane中42.9%；引入基于反馈的修复后，最优得分分别提升至83.3%、76.2%和66.7%。这些结果展现出明显进展，但也表明可靠的多框架量子代码生成问题仍未解决，且仍高度依赖于框架特定知识。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

51+阅读 · 2024年6月30日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

专知会员服务

67+阅读 · 2023年12月7日

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

专知会员服务

75+阅读 · 2023年11月29日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

专知会员服务

103+阅读 · 2023年10月8日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

新智元

12+阅读 · 2018年7月10日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

小规模量子混成系统的验证

国家自然科学基金

0+阅读 · 2015年12月31日

基于ancilla量子位的多通道量子视频生成及加密方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于光学超晶格实现光纤通讯和量子存储波段的多色连续变量纠缠光场

国家自然科学基金

0+阅读 · 2015年12月31日

量子算法加速性差异研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

利用连续变量多组份纠缠态实现经典和量子算法

国家自然科学基金

0+阅读 · 2015年12月31日

量子计算算法设计与实现方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

量子码的构造

国家自然科学基金

1+阅读 · 2015年12月31日

自检测型量子密钥分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

多体量子纠缠与量子信息网络研究

国家自然科学基金

1+阅读 · 2014年12月31日

准粒子的量子控制及其在量子信息处理中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios

Arxiv

0+阅读 · 5月1日

ClassEval-Pro: A Cross-Domain Benchmark for Class-Level Code Generation

Arxiv

0+阅读 · 4月29日

MIST: A Co-Design Framework for Heterogeneous, Multi-Stage LLM Inference

Arxiv

0+阅读 · 4月20日

VerilogCL: A Contrastive Learning Framework for Robust LLM-Based Verilog Generation

Arxiv

0+阅读 · 4月20日

BACE: LLM-based Code Generation through Bayesian Anchored Co-Evolution of Code and Test Populations

Arxiv

0+阅读 · 4月13日

From Paper to Program: A Multi-Stage LLM-Assisted Workflow for Accelerating Quantum Many-Body Algorithm Development

Arxiv

0+阅读 · 4月5日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月27日

Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis

Arxiv

0+阅读 · 3月9日

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Arxiv

0+阅读 · 3月3日

SOSecure: Safer Code Generation with RAG and StackOverflow Discussions

Arxiv

0+阅读 · 3月2日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

51+阅读 · 2024年6月30日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

专知会员服务

67+阅读 · 2023年12月7日

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

专知会员服务

75+阅读 · 2023年11月29日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

专知会员服务

103+阅读 · 2023年10月8日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

新智元

12+阅读 · 2018年7月10日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

相关论文

FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios

Arxiv

0+阅读 · 5月1日

ClassEval-Pro: A Cross-Domain Benchmark for Class-Level Code Generation

Arxiv

0+阅读 · 4月29日

MIST: A Co-Design Framework for Heterogeneous, Multi-Stage LLM Inference

Arxiv

0+阅读 · 4月20日

VerilogCL: A Contrastive Learning Framework for Robust LLM-Based Verilog Generation

Arxiv

0+阅读 · 4月20日

BACE: LLM-based Code Generation through Bayesian Anchored Co-Evolution of Code and Test Populations

Arxiv

0+阅读 · 4月13日

From Paper to Program: A Multi-Stage LLM-Assisted Workflow for Accelerating Quantum Many-Body Algorithm Development

Arxiv

0+阅读 · 4月5日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月27日

Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis

Arxiv

0+阅读 · 3月9日

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Arxiv

0+阅读 · 3月3日

SOSecure: Safer Code Generation with RAG and StackOverflow Discussions

Arxiv

0+阅读 · 3月2日

相关基金

小规模量子混成系统的验证

国家自然科学基金

0+阅读 · 2015年12月31日

基于ancilla量子位的多通道量子视频生成及加密方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于光学超晶格实现光纤通讯和量子存储波段的多色连续变量纠缠光场

国家自然科学基金

0+阅读 · 2015年12月31日

量子算法加速性差异研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

利用连续变量多组份纠缠态实现经典和量子算法

国家自然科学基金

0+阅读 · 2015年12月31日

量子计算算法设计与实现方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

量子码的构造

国家自然科学基金

1+阅读 · 2015年12月31日

自检测型量子密钥分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

多体量子纠缠与量子信息网络研究

国家自然科学基金

1+阅读 · 2014年12月31日

准粒子的量子控制及其在量子信息处理中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员