Quantum-Audit: Evaluating the Reasoning Limits of LLMs on Quantum Computing - 专知论文

会员服务 ·

0

准确率 · 量子计算 · 语言模型 · 基准 · 基准测试 ·

Quantum-Audit: Evaluating the Reasoning Limits of LLMs on Quantum Computing

翻译：量子审计：评估大语言模型在量子计算领域的推理极限

Mohamed Afane,Kayla Laufer,Wenqi Wei,Ying Mao,Junaid Farooq,Ying Wang,Juntao Chen

from arxiv, 18 pages

Language models have become practical tools for quantum computing education and research, from summarizing technical papers to explaining theoretical concepts and answering questions about recent developments in the field. While existing benchmarks evaluate quantum code generation and circuit design, their understanding of quantum computing concepts has not been systematically measured. Quantum-Audit addresses this gap with 2,700 questions covering core quantum computing topics. We evaluate 26 models from leading organizations. Our benchmark comprises 1,000 expert-written questions, 1,000 questions extracted from research papers using LLMs and validated by experts, plus an additional 700 questions including 350 open-ended questions and 350 questions with false premises to test whether models can correct erroneous assumptions. Human participants scored between 23% and 86%, with experts averaging 74%. Top-performing models exceeded the expert average, with Claude Opus 4.5 reaching 84% accuracy, though top models showed an average 12-point accuracy drop on expert-written questions compared to LLM-generated ones. Performance declined further on advanced topics, dropping to 73% on security questions. Additionally, models frequently accepted and reinforced false premises embedded in questions instead of identifying them, with accuracy below 66% on these critical reasoning tasks.

翻译：语言模型已成为量子计算教育和研究的实用工具，涵盖从技术论文总结、理论概念阐释到解答该领域最新进展问题等多个方面。尽管现有基准测试已能评估量子代码生成与电路设计能力，但模型对量子计算概念的理解尚未得到系统化衡量。量子审计通过涵盖核心量子计算主题的2,700道题目填补了这一空白。我们对来自领先机构的26个模型进行了评估。本基准测试包含1,000道专家撰写的问题、1,000道通过大语言模型从研究论文中提取并经专家验证的问题，以及额外700道题目——其中350道为开放式问题，350道为包含错误前提的问题，用于测试模型能否纠正错误假设。人类参与者得分介于23%至86%之间，专家平均准确率为74%。表现最佳的模型超越了专家平均水平，Claude Opus 4.5达到84%准确率，但顶尖模型在专家撰写问题上的准确率较大语言模型生成问题平均下降12个百分点。在高级主题上性能进一步下降，安全类问题准确率跌至73%。此外，模型经常接受并强化问题中嵌入的错误前提而非识别它们，在这些关键推理任务上的准确率低于66%。

0

相关内容

准确率

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

量子计算在非正规战争中的新兴潜力

量子计算在非正规战争中的新兴潜力

专知会员服务

18+阅读 · 2025年2月23日

中国信通院联合发布《量子计算发展态势研究报告（2024年）》

中国信通院联合发布《量子计算发展态势研究报告（2024年）》

专知会员服务

23+阅读 · 2024年9月25日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

推荐！【量子算法设计、应用】《不确定性条件下用于决策的量子计算算法》IBM、美国空军109页技术报告

推荐！【量子算法设计、应用】《不确定性条件下用于决策的量子计算算法》IBM、美国空军109页技术报告

专知会员服务

56+阅读 · 2022年10月8日

《量子优势阈值下的量子计算：一个正式的综述》牛津大学等2022最新525篇文献55页论文

《量子优势阈值下的量子计算：一个正式的综述》牛津大学等2022最新525篇文献55页论文

专知会员服务

11+阅读 · 2022年6月28日

什么是量子神经网络？陶大程等发布最新《量子生成学习模型》研究综述，30页pdf涵盖305篇文献讲述最新量子神经网络进展

什么是量子神经网络？陶大程等发布最新《量子生成学习模型》研究综述，30页pdf涵盖305篇文献讲述最新量子神经网络进展

专知会员服务

30+阅读 · 2022年6月21日

2021年中国量子计算应用市场研究报告

2021年中国量子计算应用市场研究报告

专知会员服务

38+阅读 · 2021年10月28日

量子云计算发展态势研究报告（2021年），38页pdf

专知会员服务

32+阅读 · 2021年10月12日

量子优化算法综述

专知会员服务

37+阅读 · 2021年9月12日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

量子技术+军事？这篇最新53页pdf《量子技术在军事中的应用》万字综述论文阐述未来量子战争形态 (附中文版）

量子技术+军事？这篇最新53页pdf《量子技术在军事中的应用》万字综述论文阐述未来量子战争形态 (附中文版）

专知

35+阅读 · 2022年3月27日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

[评测报名] 中国计算语言学大会（CCL 2018）技术评测任务发布

[评测报名] 中国计算语言学大会（CCL 2018）技术评测任务发布

哈工大SCIR

16+阅读 · 2018年5月3日

量子算法理论专题讲习班

国家自然科学基金

16+阅读 · 2017年12月31日

超导量子比特器件的材料、工艺、设计探索

国家自然科学基金

1+阅读 · 2017年12月31日

量子计量学前沿研究

国家自然科学基金

2+阅读 · 2015年12月31日

量子图像安全保密关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子计算算法设计与实现方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

二维和三维量子图像的存储、压缩与分割技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多体量子纠缠与量子信息网络研究

国家自然科学基金

1+阅读 · 2014年12月31日

准粒子的量子控制及其在量子信息处理中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

噪声环境下腔量子电动力学量子计算与量子相干操控的理论研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于超导电路混合装置的量子信息处理的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Evaluating Security Properties in the Execution of Quantum Circuits

Evaluating Security Properties in the Execution of Quantum Circuits

Arxiv

0+阅读 · 3月16日

Reference Architecture of a Quantum-Centric Supercomputer

Arxiv

0+阅读 · 3月11日

IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation

Arxiv

0+阅读 · 2月26日

The Road to Useful Quantum Computers

Arxiv

0+阅读 · 2月26日

Quantum Computing for Query Containment of Conjunctive Queries

Arxiv

0+阅读 · 2月25日

Benchmarking quantum computers

Arxiv

0+阅读 · 2月13日

Evaluating LLM Reasoning Beyond Correctness and CoT

Arxiv

0+阅读 · 2月12日

Quantum Circuit Generation via test-time learning with large language models

Arxiv

0+阅读 · 2月12日

Quantum Circuit Generation via test-time learning with large language models

Arxiv

0+阅读 · 2月6日

The Quantum Sieve Tracer: A Hybrid Framework for Layer-Wise Activation Tracing in Large Language Models

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

1+阅读 · 今天15:43

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

1+阅读 · 今天15:41

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

1+阅读 · 今天15:37

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

1+阅读 · 今天15:35

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

6+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

13+阅读 · 5月29日

相关VIP内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

量子计算在非正规战争中的新兴潜力

量子计算在非正规战争中的新兴潜力

专知会员服务

18+阅读 · 2025年2月23日

中国信通院联合发布《量子计算发展态势研究报告（2024年）》

中国信通院联合发布《量子计算发展态势研究报告（2024年）》

专知会员服务

23+阅读 · 2024年9月25日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

推荐！【量子算法设计、应用】《不确定性条件下用于决策的量子计算算法》IBM、美国空军109页技术报告

推荐！【量子算法设计、应用】《不确定性条件下用于决策的量子计算算法》IBM、美国空军109页技术报告

专知会员服务

56+阅读 · 2022年10月8日

《量子优势阈值下的量子计算：一个正式的综述》牛津大学等2022最新525篇文献55页论文

《量子优势阈值下的量子计算：一个正式的综述》牛津大学等2022最新525篇文献55页论文

专知会员服务

11+阅读 · 2022年6月28日

什么是量子神经网络？陶大程等发布最新《量子生成学习模型》研究综述，30页pdf涵盖305篇文献讲述最新量子神经网络进展

什么是量子神经网络？陶大程等发布最新《量子生成学习模型》研究综述，30页pdf涵盖305篇文献讲述最新量子神经网络进展

专知会员服务

30+阅读 · 2022年6月21日

2021年中国量子计算应用市场研究报告

2021年中国量子计算应用市场研究报告

专知会员服务

38+阅读 · 2021年10月28日

量子云计算发展态势研究报告（2021年），38页pdf

专知会员服务

32+阅读 · 2021年10月12日

量子优化算法综述

专知会员服务

37+阅读 · 2021年9月12日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

量子技术+军事？这篇最新53页pdf《量子技术在军事中的应用》万字综述论文阐述未来量子战争形态 (附中文版）

量子技术+军事？这篇最新53页pdf《量子技术在军事中的应用》万字综述论文阐述未来量子战争形态 (附中文版）

专知

35+阅读 · 2022年3月27日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

[评测报名] 中国计算语言学大会（CCL 2018）技术评测任务发布

[评测报名] 中国计算语言学大会（CCL 2018）技术评测任务发布

哈工大SCIR

16+阅读 · 2018年5月3日

相关论文

Evaluating Security Properties in the Execution of Quantum Circuits

Evaluating Security Properties in the Execution of Quantum Circuits

Arxiv

0+阅读 · 3月16日

Reference Architecture of a Quantum-Centric Supercomputer

Arxiv

0+阅读 · 3月11日

IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation

Arxiv

0+阅读 · 2月26日

The Road to Useful Quantum Computers

Arxiv

0+阅读 · 2月26日

Quantum Computing for Query Containment of Conjunctive Queries

Arxiv

0+阅读 · 2月25日

Benchmarking quantum computers

Arxiv

0+阅读 · 2月13日

Evaluating LLM Reasoning Beyond Correctness and CoT

Arxiv

0+阅读 · 2月12日

Quantum Circuit Generation via test-time learning with large language models

Arxiv

0+阅读 · 2月12日

Quantum Circuit Generation via test-time learning with large language models

Arxiv

0+阅读 · 2月6日

The Quantum Sieve Tracer: A Hybrid Framework for Layer-Wise Activation Tracing in Large Language Models

Arxiv

0+阅读 · 2月6日

相关基金

量子算法理论专题讲习班

国家自然科学基金

16+阅读 · 2017年12月31日

超导量子比特器件的材料、工艺、设计探索

国家自然科学基金

1+阅读 · 2017年12月31日

量子计量学前沿研究

国家自然科学基金

2+阅读 · 2015年12月31日

量子图像安全保密关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子计算算法设计与实现方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

二维和三维量子图像的存储、压缩与分割技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多体量子纠缠与量子信息网络研究

国家自然科学基金

1+阅读 · 2014年12月31日

准粒子的量子控制及其在量子信息处理中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

噪声环境下腔量子电动力学量子计算与量子相干操控的理论研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于超导电路混合装置的量子信息处理的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员