在模拟器中运行量子机器学习算法能提供宝贵信息，但这未能全面展现其在实际量子处理单元（QPU）上的性能。如本章前述，真实硬件存在噪声、有限连接和门错误。因此，在物理设备上严格测试QML算法，是了解它们在NISQ时代实际能力和局限的重要一步。基准测试包含细致的实验设计、指标选择和结果分析，以得出关于可行性及潜在优势的有意义的判断。

定义基准测试的范围与目标

在昂贵且常有排队时间限制的量子硬件上运行实验之前，明确测量目标很重要。QML算法基准测试的常见目标包含：

性能精确度： QML模型在执行其预定任务（如分类精度、回归误差、生成分布的保真度）时表现如何？与经典对应算法或理想量子模拟相比又如何？
资源消耗： 硬件要求有哪些？这包含追踪所用量子比特数、量子电路的深度（尤其是在针对特定硬件拓扑进行转译后）、门数量以及所需的测量次数。
训练动态： 对于变分算法，模拟器与硬件之间的训练过程（如收敛速度、损失函数的稳定性）有何差异？在含噪条件下，所选优化器效果如何？
噪声韧性与纠错效果： 硬件噪声对性能的损害程度如何？通过应用前述的纠错技术（如ZNE或PEC）能获得多少提升？
可扩展性： 随着问题规模（如特征数量、数据点、量子比特数）增加，精度和资源要求如何变化？硬件限制在何处设定了实际界限？

这些目标决定了您在实验中需要追踪的指标。

选择合适的指标

选择正确的指标是有效基准测试的基础。这些指标通常分为任务特定、资源相关和噪声相关类别：

任务特定指标： 这些取决于机器学习任务。
- 分类： 精度、精确率、召回率、F1分数、ROC曲线下面积（AUC）。根据映射到类别标签的测量结果计算。
- 回归： 均方误差（MSE）、平均绝对误差（MAE）。从测量算子的期望值推导。
- 生成模型（QCBMs、QGANs）： Kullback-Leibler（KL）散度、最大均值差异（MMD），或生成样本与目标分布的定性评估。通常需要从测量计数估计概率分布。
资源指标： 这些量化计算成本。
- 量子比特数： 算法所需的量子比特数量。
- 电路深度： 电路中门的最长路径，通常报告为针对特定设备的转译后深度。更深的电路更容易受噪声影响。
- 门计数： 量子门的总数，有时按特定硬件的原生门类型细分。
- 测量次数： 电路执行的次数，用于估计期望值或采样概率。更多次数可减少统计采样误差，但会增加执行时间。
- 执行时间： 实际运行时间，包含排队时间和实际QPU执行时间。
噪声与稳定性指标：
- 性能方差： 多次相同运行中任务特定指标的标准差或范围，表示对噪声波动和校准漂移的稳定性。
- 纠错增益： 应用纠错与原始硬件执行相比的性能差异（如精度提升）。

硬件基准测试方法

需要一种系统化方法来获得可靠的基准测试结果。

建立基线：
- 经典基线： 在相同数据集和任务上实现并评估一个可比较的经典机器学习算法（如经典SVM、小型神经网络）。这提供了性能的参考点。
- 理想量子基线： 模拟QML算法，假设使用一台完美无噪声的量子计算机。这代表了所选量子模型的理论最佳性能。
- 含噪模拟基线： 使用代表目标硬件的噪声模型（使用如 $T_1$ 、 $T_2$ 、门错误率等参数）模拟QML算法。这有助于与理想情况相比，隔离噪声的影响，并能离线验证纠错策略。
选择硬件与准备电路：
- 根据可用量子比特、连接性、报告的保真度以及原生门集来选择目标QPU。不同提供商（如IBM Quantum、Rigetti、IonQ）提供特性不同的设备。
- 为特定硬件转译量子电路。此过程将逻辑电路映射到设备的量子比特拓扑结构上，并将门分解为硬件的原生门集。监测转译如何影响电路深度和门计数，因为这直接影响噪声累积。在可能的情况下，使用硬件高效的ansätze。
设计与执行实验：
- 定义实验运行。系统化地改变参数，例如量子比特数、电路层数/深度、数据集大小、测量次数以及纠错设置（例如ZNE的不同外推级别）。
- 规划重复运行。对每种配置多次运行（例如5-10次），以平均结果并估计方差，考虑有限测量次数带来的统计噪声以及设备性能的潜在波动（校准漂移）。
- 向量子硬件提供商的平台提交作业，注意排队时间和执行限制。
收集与整理数据：
- 细致记录所有实验参数：算法配置、数据集详情、所用硬件、转译设置、应用的纠错方法、测量次数。
- 存储硬件为每次电路执行返回的原始测量计数。
- 根据原始数据计算所选指标。

分析与解读基准测试结果

最后一步是分析收集到的数据并解读所得。

定量比较： 使用所选指标，将硬件结果与经典、理想量子和含噪模拟基线进行比较。使用图表绘制这些比较。例如，为不同执行环境（理想、含噪模拟、原始硬件、已纠错硬件）绘制精度与训练周期或电路深度的关系图。

VQC在不同执行环境下训练精度的比较，体现了性能差距和纠错效果。

评估噪声影响与纠错： 量化从理想模拟到原始硬件执行的性能下降。评估纠错如何有效地缩小与理想或含噪模拟基线之间的差距。确定哪些算法或电路结构对噪声更敏感。
评估可扩展性： 分析性能指标和资源要求如何随问题规模变化。识别量子比特数、连接性或相干时间带来的瓶颈。硬件上是否比模拟中更早出现贫瘠高原的迹象？
硬件特定信息： 如果使用了多个设备，比较它们的性能。将差异与已知的硬件规格（例如，较低的错误率或更好的连接性可能带来更好的结果）关联起来。
结果情境化： 清晰报告结果，包含实验设置和局限（例如，特定设备的校准状态、潜在偏见）。避免基于小规模实验对“量子优势”进行泛化。侧重于理解当前状态、纠错等技术的有效性，以及近期硬件上QML实际使用所面临的挑战。

在实际量子设备上进行基准测试是一个复杂但必要的步骤，对于推动QML进步很重要。它为算法设计、纠错方法发展以及明晰QML应用在硬件缺陷存在下的真实能力和局限提供了重要反馈。

这部分内容有帮助吗？

参考文献

Benchmarking Variational Quantum Classifiers on NISQ Devices, Sukin Sim, Gavin E. Crooks, Aleksander Kubica, Peter D. Johnson, Ryan LaRose, Alán Aspuru-Guzik, Patrick J. Coles, 2021 Physical Review X, Vol. 12 (American Physical Society) DOI: 10.1103/PhysRevX.12.041062 - 对真实量子硬件上的变分量子分类器进行实证研究，评估其在噪声条件下的性能和资源需求。