在模拟器中运行量子机器学习算法能提供宝贵信息,但这未能全面展现其在实际量子处理单元(QPU)上的性能。如本章前述,真实硬件存在噪声、有限连接和门错误。因此,在物理设备上严格测试QML算法,是了解它们在NISQ时代实际能力和局限的重要一步。基准测试包含细致的实验设计、指标选择和结果分析,以得出关于可行性及潜在优势的有意义的判断。
定义基准测试的范围与目标
在昂贵且常有排队时间限制的量子硬件上运行实验之前,明确测量目标很重要。QML算法基准测试的常见目标包含:
- 性能精确度: QML模型在执行其预定任务(如分类精度、回归误差、生成分布的保真度)时表现如何?与经典对应算法或理想量子模拟相比又如何?
- 资源消耗: 硬件要求有哪些?这包含追踪所用量子比特数、量子电路的深度(尤其是在针对特定硬件拓扑进行转译后)、门数量以及所需的测量次数。
- 训练动态: 对于变分算法,模拟器与硬件之间的训练过程(如收敛速度、损失函数的稳定性)有何差异?在含噪条件下,所选优化器效果如何?
- 噪声韧性与纠错效果: 硬件噪声对性能的损害程度如何?通过应用前述的纠错技术(如ZNE或PEC)能获得多少提升?
- 可扩展性: 随着问题规模(如特征数量、数据点、量子比特数)增加,精度和资源要求如何变化?硬件限制在何处设定了实际界限?
这些目标决定了您在实验中需要追踪的指标。
选择合适的指标
选择正确的指标是有效基准测试的基础。这些指标通常分为任务特定、资源相关和噪声相关类别:
- 任务特定指标: 这些取决于机器学习任务。
- 分类: 精度、精确率、召回率、F1分数、ROC曲线下面积(AUC)。根据映射到类别标签的测量结果计算。
- 回归: 均方误差(MSE)、平均绝对误差(MAE)。从测量算子的期望值推导。
- 生成模型(QCBMs、QGANs): Kullback-Leibler(KL)散度、最大均值差异(MMD),或生成样本与目标分布的定性评估。通常需要从测量计数估计概率分布。
- 资源指标: 这些量化计算成本。
- 量子比特数: 算法所需的量子比特数量。
- 电路深度: 电路中门的最长路径,通常报告为针对特定设备的转译后深度。更深的电路更容易受噪声影响。
- 门计数: 量子门的总数,有时按特定硬件的原生门类型细分。
- 测量次数: 电路执行的次数,用于估计期望值或采样概率。更多次数可减少统计采样误差,但会增加执行时间。
- 执行时间: 实际运行时间,包含排队时间和实际QPU执行时间。
- 噪声与稳定性指标:
- 性能方差: 多次相同运行中任务特定指标的标准差或范围,表示对噪声波动和校准漂移的稳定性。
- 纠错增益: 应用纠错与原始硬件执行相比的性能差异(如精度提升)。
硬件基准测试方法
需要一种系统化方法来获得可靠的基准测试结果。
-
建立基线:
- 经典基线: 在相同数据集和任务上实现并评估一个可比较的经典机器学习算法(如经典SVM、小型神经网络)。这提供了性能的参考点。
- 理想量子基线: 模拟QML算法,假设使用一台完美无噪声的量子计算机。这代表了所选量子模型的理论最佳性能。
- 含噪模拟基线: 使用代表目标硬件的噪声模型(使用如 T1、T2、门错误率等参数)模拟QML算法。这有助于与理想情况相比,隔离噪声的影响,并能离线验证纠错策略。
-
选择硬件与准备电路:
- 根据可用量子比特、连接性、报告的保真度以及原生门集来选择目标QPU。不同提供商(如IBM Quantum、Rigetti、IonQ)提供特性不同的设备。
- 为特定硬件转译量子电路。此过程将逻辑电路映射到设备的量子比特拓扑结构上,并将门分解为硬件的原生门集。监测转译如何影响电路深度和门计数,因为这直接影响噪声累积。在可能的情况下,使用硬件高效的ansätze。
-
设计与执行实验:
- 定义实验运行。系统化地改变参数,例如量子比特数、电路层数/深度、数据集大小、测量次数以及纠错设置(例如ZNE的不同外推级别)。
- 规划重复运行。对每种配置多次运行(例如5-10次),以平均结果并估计方差,考虑有限测量次数带来的统计噪声以及设备性能的潜在波动(校准漂移)。
- 向量子硬件提供商的平台提交作业,注意排队时间和执行限制。
-
收集与整理数据:
- 细致记录所有实验参数:算法配置、数据集详情、所用硬件、转译设置、应用的纠错方法、测量次数。
- 存储硬件为每次电路执行返回的原始测量计数。
- 根据原始数据计算所选指标。
分析与解读基准测试结果
最后一步是分析收集到的数据并解读所得。
- 定量比较: 使用所选指标,将硬件结果与经典、理想量子和含噪模拟基线进行比较。使用图表绘制这些比较。例如,为不同执行环境(理想、含噪模拟、原始硬件、已纠错硬件)绘制精度与训练周期或电路深度的关系图。
VQC在不同执行环境下训练精度的比较,体现了性能差距和纠错效果。
- 评估噪声影响与纠错: 量化从理想模拟到原始硬件执行的性能下降。评估纠错如何有效地缩小与理想或含噪模拟基线之间的差距。确定哪些算法或电路结构对噪声更敏感。
- 评估可扩展性: 分析性能指标和资源要求如何随问题规模变化。识别量子比特数、连接性或相干时间带来的瓶颈。硬件上是否比模拟中更早出现贫瘠高原的迹象?
- 硬件特定信息: 如果使用了多个设备,比较它们的性能。将差异与已知的硬件规格(例如,较低的错误率或更好的连接性可能带来更好的结果)关联起来。
- 结果情境化: 清晰报告结果,包含实验设置和局限(例如,特定设备的校准状态、潜在偏见)。避免基于小规模实验对“量子优势”进行泛化。侧重于理解当前状态、纠错等技术的有效性,以及近期硬件上QML实际使用所面临的挑战。
在实际量子设备上进行基准测试是一个复杂但必要的步骤,对于推动QML进步很重要。它为算法设计、纠错方法发展以及明晰QML应用在硬件缺陷存在下的真实能力和局限提供了重要反馈。