A reinforcement learning (RL) framework is introduced for the efficient synthesis of quantum circuits that generate specified target quantum states from a fixed initial state, addressing a central challenge in both the Noisy Intermediate-Scale Quantum (NISQ) era and future fault-tolerant quantum computing. The approach utilizes tabular Q-learning, based on action sequences, within a discretized quantum state space, to effectively manage the exponential growth of the space dimension.The framework introduces a hybrid reward mechanism, combining a static, domain-informed reward that guides the agent toward the target state with customizable dynamic penalties that discourage inefficient circuit structures such as gate congestion and redundant state revisits. This is a circuit-aware reward, in contrast to the current trend of works on this topic, which are primarily fidelity-based. By leveraging sparse matrix representations and state-space discretization, the method enables practical navigation of high-dimensional environments while minimizing computational overhead. Benchmarking on graph-state preparation tasks for up to seven qubits, we demonstrate that the algorithm consistently discovers minimal-depth circuits with optimized gate counts. Moreover, extending the framework to a universal gate set still yields low depth circuits, highlighting the algorithm robustness and adaptability. The results confirm that this RL-driven approach, with our completely circuit-aware method, efficiently explores the complex quantum state space and synthesizes near-optimal quantum circuits, providing a resource-efficient foundation for quantum circuit optimization.


翻译:本文提出了一种强化学习框架,用于高效合成从固定初始态生成指定目标量子态的量子电路,以应对含噪声中等规模量子时代及未来容错量子计算中的一个核心挑战。该方法在离散化的量子态空间中,利用基于动作序列的表格型Q学习,有效管理空间维度的指数增长。该框架引入了混合奖励机制,将引导智能体朝向目标态的静态领域知识奖励与可定制的动态惩罚相结合,以抑制低效电路结构,如门拥塞和冗余状态重访。这是一种电路感知的奖励机制,与当前该主题研究中主要基于保真度的方法形成对比。通过利用稀疏矩阵表示和状态空间离散化,该方法能够在高维环境中实现实际可行的导航,同时最小化计算开销。在多达七个量子比特的图态制备任务上进行基准测试,我们证明该算法能够一致地发现具有优化门数量的最小深度电路。此外,将该框架扩展到通用门集仍能产生低深度电路,突显了算法的鲁棒性和适应性。结果证实,这种采用我们完全电路感知方法的强化学习驱动方案,能够高效探索复杂的量子态空间并合成接近最优的量子电路,为量子电路优化提供了资源高效的基础。

0
下载
关闭预览

相关内容

深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【ICML2023】表示驱动强化学习
专知会员服务
39+阅读 · 2023年6月2日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
PyTorch实现多种深度强化学习算法
专知
36+阅读 · 2019年1月15日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员