在模拟器中运行量子机器学习算法能提供宝贵信息,但这未能全面展现其在实际量子处理单元(QPU)上的性能。如本章前述,真实硬件存在噪声、有限连接和门错误。因此,在物理设备上严格测试QML算法,是了解它们在NISQ时代实际能力和局限的重要一步。基准测试包含细致的实验设计、指标选择和结果分析,以得出关于可行性及潜在优势的有意义的判断。定义基准测试的范围与目标在昂贵且常有排队时间限制的量子硬件上运行实验之前,明确测量目标很重要。QML算法基准测试的常见目标包含:性能精确度: QML模型在执行其预定任务(如分类精度、回归误差、生成分布的保真度)时表现如何?与经典对应算法或理想量子模拟相比又如何?资源消耗: 硬件要求有哪些?这包含追踪所用量子比特数、量子电路的深度(尤其是在针对特定硬件拓扑进行转译后)、门数量以及所需的测量次数。训练动态: 对于变分算法,模拟器与硬件之间的训练过程(如收敛速度、损失函数的稳定性)有何差异?在含噪条件下,所选优化器效果如何?噪声韧性与纠错效果: 硬件噪声对性能的损害程度如何?通过应用前述的纠错技术(如ZNE或PEC)能获得多少提升?可扩展性: 随着问题规模(如特征数量、数据点、量子比特数)增加,精度和资源要求如何变化?硬件限制在何处设定了实际界限?这些目标决定了您在实验中需要追踪的指标。选择合适的指标选择正确的指标是有效基准测试的基础。这些指标通常分为任务特定、资源相关和噪声相关类别:任务特定指标: 这些取决于机器学习任务。分类: 精度、精确率、召回率、F1分数、ROC曲线下面积(AUC)。根据映射到类别标签的测量结果计算。回归: 均方误差(MSE)、平均绝对误差(MAE)。从测量算子的期望值推导。生成模型(QCBMs、QGANs): Kullback-Leibler(KL)散度、最大均值差异(MMD),或生成样本与目标分布的定性评估。通常需要从测量计数估计概率分布。资源指标: 这些量化计算成本。量子比特数: 算法所需的量子比特数量。电路深度: 电路中门的最长路径,通常报告为针对特定设备的转译后深度。更深的电路更容易受噪声影响。门计数: 量子门的总数,有时按特定硬件的原生门类型细分。测量次数: 电路执行的次数,用于估计期望值或采样概率。更多次数可减少统计采样误差,但会增加执行时间。执行时间: 实际运行时间,包含排队时间和实际QPU执行时间。噪声与稳定性指标:性能方差: 多次相同运行中任务特定指标的标准差或范围,表示对噪声波动和校准漂移的稳定性。纠错增益: 应用纠错与原始硬件执行相比的性能差异(如精度提升)。硬件基准测试方法需要一种系统化方法来获得可靠的基准测试结果。建立基线:经典基线: 在相同数据集和任务上实现并评估一个可比较的经典机器学习算法(如经典SVM、小型神经网络)。这提供了性能的参考点。理想量子基线: 模拟QML算法,假设使用一台完美无噪声的量子计算机。这代表了所选量子模型的理论最佳性能。含噪模拟基线: 使用代表目标硬件的噪声模型(使用如 $T_1$、$T_2$、门错误率等参数)模拟QML算法。这有助于与理想情况相比,隔离噪声的影响,并能离线验证纠错策略。选择硬件与准备电路:根据可用量子比特、连接性、报告的保真度以及原生门集来选择目标QPU。不同提供商(如IBM Quantum、Rigetti、IonQ)提供特性不同的设备。为特定硬件转译量子电路。此过程将逻辑电路映射到设备的量子比特拓扑结构上,并将门分解为硬件的原生门集。监测转译如何影响电路深度和门计数,因为这直接影响噪声累积。在可能的情况下,使用硬件高效的ansätze。设计与执行实验:定义实验运行。系统化地改变参数,例如量子比特数、电路层数/深度、数据集大小、测量次数以及纠错设置(例如ZNE的不同外推级别)。规划重复运行。对每种配置多次运行(例如5-10次),以平均结果并估计方差,考虑有限测量次数带来的统计噪声以及设备性能的潜在波动(校准漂移)。向量子硬件提供商的平台提交作业,注意排队时间和执行限制。收集与整理数据:细致记录所有实验参数:算法配置、数据集详情、所用硬件、转译设置、应用的纠错方法、测量次数。存储硬件为每次电路执行返回的原始测量计数。根据原始数据计算所选指标。分析与解读基准测试结果最后一步是分析收集到的数据并解读所得。定量比较: 使用所选指标,将硬件结果与经典、理想量子和含噪模拟基线进行比较。使用图表绘制这些比较。例如,为不同执行环境(理想、含噪模拟、原始硬件、已纠错硬件)绘制精度与训练周期或电路深度的关系图。{ "data": [ { "type": "scatter", "mode": "lines+markers", "name": "理想模拟器", "x": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], "y": [0.55, 0.62, 0.70, 0.75, 0.78, 0.80, 0.81, 0.82, 0.82, 0.83], "line": { "color": "#1c7ed6" } }, { "type": "scatter", "mode": "lines+markers", "name": "含噪模拟器", "x": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], "y": [0.54, 0.59, 0.63, 0.65, 0.66, 0.65, 0.64, 0.63, 0.63, 0.62], "line": { "color": "#fd7e14" } }, { "type": "scatter", "mode": "lines+markers", "name": "真实硬件(原始)", "x": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], "y": [0.52, 0.55, 0.58, 0.59, 0.58, 0.56, 0.55, 0.54, 0.53, 0.53], "line": { "color": "#f03e3e" } }, { "type": "scatter", "mode": "lines+markers", "name": "真实硬件(已纠错)", "x": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], "y": [0.53, 0.58, 0.62, 0.64, 0.65, 0.64, 0.63, 0.62, 0.61, 0.60], "line": { "color": "#37b24d" } } ], "layout": { "title": { "text": "VQC训练精度比较" }, "xaxis": { "title": "训练周期" }, "yaxis": { "title": "分类精度", "range": [0.45, 0.9] }, "legend": { "title": { "text": "执行环境" } }, "width": 600, "height": 400 } }VQC在不同执行环境下训练精度的比较,体现了性能差距和纠错效果。评估噪声影响与纠错: 量化从理想模拟到原始硬件执行的性能下降。评估纠错如何有效地缩小与理想或含噪模拟基线之间的差距。确定哪些算法或电路结构对噪声更敏感。评估可扩展性: 分析性能指标和资源要求如何随问题规模变化。识别量子比特数、连接性或相干时间带来的瓶颈。硬件上是否比模拟中更早出现贫瘠高原的迹象?硬件特定信息: 如果使用了多个设备,比较它们的性能。将差异与已知的硬件规格(例如,较低的错误率或更好的连接性可能带来更好的结果)关联起来。结果情境化: 清晰报告结果,包含实验设置和局限(例如,特定设备的校准状态、潜在偏见)。避免基于小规模实验对“量子优势”进行泛化。侧重于理解当前状态、纠错等技术的有效性,以及近期硬件上QML实际使用所面临的挑战。在实际量子设备上进行基准测试是一个复杂但必要的步骤,对于推动QML进步很重要。它为算法设计、纠错方法发展以及明晰QML应用在硬件缺陷存在下的真实能力和局限提供了重要反馈。