Language models have become practical tools for quantum computing education and research, from summarizing technical papers to explaining theoretical concepts and answering questions about recent developments in the field. While existing benchmarks evaluate quantum code generation and circuit design, their understanding of quantum computing concepts has not been systematically measured. Quantum-Audit addresses this gap with 2,700 questions covering core quantum computing topics. We evaluate 26 models from leading organizations. Our benchmark comprises 1,000 expert-written questions, 1,000 questions extracted from research papers using LLMs and validated by experts, plus an additional 700 questions including 350 open-ended questions and 350 questions with false premises to test whether models can correct erroneous assumptions. Human participants scored between 23% and 86%, with experts averaging 74%. Top-performing models exceeded the expert average, with Claude Opus 4.5 reaching 84% accuracy, though top models showed an average 12-point accuracy drop on expert-written questions compared to LLM-generated ones. Performance declined further on advanced topics, dropping to 73% on security questions. Additionally, models frequently accepted and reinforced false premises embedded in questions instead of identifying them, with accuracy below 66% on these critical reasoning tasks.


翻译:语言模型已成为量子计算教育和研究的实用工具,涵盖从技术论文总结、理论概念阐释到解答该领域最新进展问题等多个方面。尽管现有基准测试已能评估量子代码生成与电路设计能力,但模型对量子计算概念的理解尚未得到系统化衡量。量子审计通过涵盖核心量子计算主题的2,700道题目填补了这一空白。我们对来自领先机构的26个模型进行了评估。本基准测试包含1,000道专家撰写的问题、1,000道通过大语言模型从研究论文中提取并经专家验证的问题,以及额外700道题目——其中350道为开放式问题,350道为包含错误前提的问题,用于测试模型能否纠正错误假设。人类参与者得分介于23%至86%之间,专家平均准确率为74%。表现最佳的模型超越了专家平均水平,Claude Opus 4.5达到84%准确率,但顶尖模型在专家撰写问题上的准确率较大语言模型生成问题平均下降12个百分点。在高级主题上性能进一步下降,安全类问题准确率跌至73%。此外,模型经常接受并强化问题中嵌入的错误前提而非识别它们,在这些关键推理任务上的准确率低于66%。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
量子计算在非正规战争中的新兴潜力
专知会员服务
17+阅读 · 2025年2月23日
2021年中国量子计算应用市场研究报告
专知会员服务
38+阅读 · 2021年10月28日
专知会员服务
32+阅读 · 2021年10月12日
专知会员服务
37+阅读 · 2021年9月12日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
相关基金
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员