训练变分量子算法(VQA)高度依赖于经典优化循环。如我们所论,VQA 包含一个参数化量子电路(PQC)U(θ) 和一个成本函数 C(θ),该函数通常定义为在 PQC 准备的输出态上测量的可观测量 H 的期望值:
C(θ)=⟨ψ(θ)∣H∣ψ(θ)⟩=⟨0∣U†(θ)HU(θ)∣0⟩
为了使用基于梯度的办法(例如梯度下降及其变体)最小化此成本函数,我们需要计算梯度向量 ∇θC(θ),其分量为相对于电路中的每个参数 θj 的偏导数 ∂θj∂C。由于成本函数评估涉及运行量子电路和执行测量,因此计算这些梯度需要专门为这种混合量子-经典配置设计的技术。我们来分析实践中使用的主要办法。
数值有限差分
最直接的办法直接借鉴于经典数值办法:有限差分。为了估算相对于参数 θj 的偏导数,我们可以在轻微扰动的参数值处评估成本函数。中心差分公式常用:
∂θj∂C≈2ϵC(θ+ϵej)−C(θ−ϵej)
这里,ej 是一个在第 j 个位置为 1、其余位置为 0 的单位向量,ϵ 是一个小步长。此办法需要对量子电路进行两次评估(并估算期望值),以计算每个参数 θj 的偏导数。
尽管有限差分易于理解和实现,但在量子计算背景下,它存在显著缺点:
- ϵ 的选择: 选择合适的 ϵ 比较困难。如果 ϵ 过大,近似就不准确(截断误差)。如果 ϵ 过小,C(θ+ϵej)−C(θ−ϵej) 的差值可能被统计噪声(散粒噪声)所主导,这种噪声源于从有限次测量中估算期望值,导致梯度估算中出现较大误差(减法误差)。
- 统计噪声: 分子中的减法会放大散粒噪声的影响,尤其当 C(θ+ϵej) 和 C(θ−ϵej) 非常接近时。为了达到足够的精度,每次评估通常需要大量的测量(shots),从而增加了计算成本。
由于这些局限,尽管有限差分对于快速检查或简单问题有益,但对于训练 VQA,通常倾向于使用更专门的办法。
参数位移规则
一种更广为采用的计算 PQC 梯度的办法是参数位移规则。对于特定类别的参数化门,该规则提供了梯度的解析表达式,避免了与在有限差分中选择 ϵ 相关的数值不稳定性。
考虑 PQC 中形式为 Gj(θj)=e−i2θjPj 的一个门,其中 Pj 是一个满足 Pj2=I 的算符。这包含常见的单比特旋转门,例如 RX(θj)=e−i2θjX、RY(θj)=e−i2θjY 和 RZ(θj)=e−i2θjZ,因为 X2=Y2=Z2=I。
如果整个 PQC U(θ) 可以写为 U(θ)=VGj(θj)W,其中 V 和 W 是与 θj 无关的其他量子电路,那么期望值 C(θ)=⟨0∣U†(θ)HU(θ)∣0⟩ 相对于 θj 的导数可以使用以下公式精确计算:
∂θj∂C(θ)=21[C(θ+2πej)−C(θ−2πej)]
这个显著的结论表明,精确导数与在参数 θj 向前和向后位移特定量 s=π/2 后评估的成本函数差值成比例。
其原理何在?
我们概述一下思路。求导涉及对门 Gj(θj) 进行求导:
∂θj∂Gj(θj)=−2iPje−i2θjPj=−2iPjGj(θj)
将其代入 C(θ) 的导数表达式会导致包含 Pj 的项。主要的认识是,对于 Pj2=I 的门,算符 Pj 可以与原始门 Gj(θj) 的位移版本相关联。具体而言,可以证明:
PjGj(θj)=2i[Gj(θj+2π)−Gj(θj−2π)]
将其代回 C(θ) 的导数表达式并简化,最终得到参数位移规则公式。
参数位移规则的示意图,用于计算梯度分量 ∂C/∂θj。期望值 ⟨H⟩ 通过运行电路,将参数 θj 位移 +π/2 和 −π/2 来估算。将结果组合以得到精确梯度。
优点:
- 解析精确: 它提供了真实梯度,而非数值近似(在评估 C 时会受到散粒噪声影响)。
- 无需调整步长: 它避免了选择小 ϵ 的问题。位移量 s=π/2 是固定的。
- 韧性: 相较于有限差分,它对散粒噪声通常更具韧性,因为位移量较大,使得差值 C(θ+sej)−C(θ−sej) 相对于噪声基底通常更大。
成本: 与中心有限差分类似,参数位移规则对每个参数 θj 需要两次电路评估。
适用性: 基本规则直接适用于由泡利算符(X,Y,Z)生成的门。QML 中常用的大多数 PQC 拟设主要是由这类门构建的,使参数位移规则得以广泛应用。
泛化与其它办法
- 泛化参数位移规则: 参数位移的理念可以推广到由仅有两个独特特征值的算符 G 生成的门,即使 G2=I。这包含在特定条件下的受控旋转门。公式中的位移值 s 和系数可能会根据生成器 G 而变化。
- 酉算符线性组合(LCU): 存在更先进的技术,例如基于将导数算符自身表示为酉运算的线性组合的办法。这些有时能提供优势,在特定情况下可能以更少的电路执行计算梯度,但通常涉及更复杂的电路构建或测量。
- 随机参数位移: 对于涉及许多参数的梯度,存在一些变体,其中每个优化步骤只计算参数位移的一个子集,引入类似于经典小批量梯度下降的随机性。
来自测量的梯度
重要的是要记住,在实践中,无论是使用有限差分还是参数位移规则,成本函数值 C(θ±sej) 本身都是从量子计算机上有限数量的测量(shots)中估算出来的。因此,计算出的梯度 ∇θC(θ) 也是一个估算值。此梯度估算的准确性直接取决于每次期望值计算使用的测量次数。这种统计不确定性是 VQA 所固有的,是选择优化算法和解读训练动态时的主要考量,我们将在接下来讨论这一点。
这些梯度计算办法在量子电路评估和经典优化程序之间建立了联系,从而使得 VQA 可以用于机器学习任务的训练。参数位移规则,尤其是一种在大多数量子软件框架(如 Qiskit、PennyLane 和 TensorFlow Quantum)中实现的标准且有效的技术。