核函数集中现象与缓解

如我们所见，量子核函数方法依赖于计算嵌入 (embedding)量子特征空间 $\mathcal{H}$ 中数据点之间的相似性 $k(x, x') = f(\langle\phi(x)|\phi(x')\rangle)$ 。QSVM等算法的效能，取决于该核函数能否捕捉输入数据间有意义的关联。然而，一个重要的实际问题随之出现，尤其是在处理高维特征空间时（即使用大量量子比特）：核函数集中现象。

问题：方差消失

核函数集中指量子核函数 $k(x, x')$ 的值，随着希尔伯特空间维度的增加，对于几乎所有不同的数据点对 $(x, x')$ 趋于变得越来越相似的趋势。通常，这些核函数值会集中在数据集的平均值附近。

从数学角度来看，如果我们考虑数据集 $\{x_i\}$ 的核函数值分布 $\{k(x_i, x_j)\}_{i \neq j}$ ，核函数集中意味着该分布的方差随着量子比特数 $n$ 的增加趋近于零：

$\text{方差}_{i \neq j} [k(x_i, x_j)] \xrightarrow{n \to \infty} 0$

这种情况常发生于当量子特征映射 $|\phi(x)\rangle$ 使用具有较大深度或纠缠度的复杂参数 (parameter)化量子线路时，这常导致状态表现得有点像高维希尔伯特空间中的随机向量 (vector)。众所周知，高维随机向量的内积会集中在特定值附近（这与莱维引理等集中不等式所描述的现象有关）。

对机器学习 (machine learning)的影响

这种集中效应给基于核函数的学习算法带来了严重问题。考虑核矩阵 $K$ ，其中 $K_{ij} = k(x_i, x_j)$ 。

判别能力丧失：如果所有非对角线元素 $K_{ij}$ （对于 $i \neq j$ ）几乎相同，则核矩阵提供的用以区分不同数据点的信息非常少。它本质上是在告诉算法，所有不同的点彼此之间相似（或不相似）程度都相同。
病态矩阵：核矩阵 $K$ 趋向于一个类似 $c \cdot \mathbf{1}\mathbf{1}^T + d \cdot I$ 的结构，其中 $\mathbf{1}$ 是全一向量 (vector)， $I$ 是单位矩阵，而 $c, d$ 分别与平均非对角线值和对角线值相关的常数。这类矩阵可能是病态的，或接近于秩一（加单位矩阵），使得SVM等算法中的优化问题变得困难或数值不稳定。SVM旨在找到特征空间中的分离超平面，但如果所有距离实际上都趋于一致，找到一个有意义的超平面变得困难。

设想一下，如果完全基于成对距离来对数据点进行分类。如果所有点看起来彼此之间距离大致相同，分类就成了猜测。

随机选择数据点的核函数值分布。当量子比特数较少时（例如，n=4，蓝色），核函数值分布范围较宽。随着量子比特数增加（例如，n=10，粉色），这些值会急剧集中在它们的平均值附近。

缓解策略

解决核函数集中是一个活跃的研究方向。没有单一的保证有效方案，但有几种策略可以帮助缓解这个问题：

1. 细致的特征映射设计

量子特征映射线路 $|\phi(x)\rangle = U_{\phi}(x) |0\rangle^{\otimes n}$ 的结构十分重要。

深度限制：非常深的线路更容易生成类似随机向量 (vector)的状态，导致集中现象。使用较浅的线路有时可以保留更多与输入数据相关的结构。
局部性：采用门主要作用于附近量子比特（局部相互影响）的特征映射，可能比早期在所有量子比特上进行全局纠缠操作的线路保留更多依赖于输入的结构。受物理学启发的设计，如张量网络或特定哈密顿演化，可能会有帮助。
问题专用Ansätze：而非通用特征映射，设计针对特定数据或问题的对称性或结构定制的Ansätze，可能会产生具有更好方差的核函数。

2. 全局核函数与局部核函数

标准核函数计算全局重叠 $\langle\phi(x)|\phi(x')\rangle$ 。另一种方法是使用“局部”核函数。与一个全局内积不同的是，人们计算局部可观测量（例如，单个量子比特或量子比特对上的泡利算符）的期望值，并将其经典地组合。例如，定义一个基于局部测量的核函数： $k_{\text{局部}}(x, x') = \sum_{i=1}^n f(\langle\phi(x)| Z_i |\phi(x')\rangle)$ 其中 $Z_i$ 是作用于量子比特 $i$ 的泡利-Z算符， $f$ 是某个函数。这种方法旨在捕捉在全局重叠中可能被掩盖的局部特征差异。虽然可能缓解集中现象，但它改变了被考察特征空间的性质。

3. 核函数后处理与修改

核函数对齐 (alignment)：存在一些技术可以在计算后调整核矩阵，以更好地与目标标签（在监督学习 (supervised learning)中）对齐。这并不能根本解决集中的问题，但试图重新缩放或平移核函数值以提高性能。
核函数归一化 (normalization)/中心化：将特征空间中的核矩阵中心化等标准技术有时可以在数值上有所帮助，尽管如果方差已经消失，它们并不能从根本上增加方差。
带宽调整：对于从高斯过程导出的核函数，存在“带宽”参数 (parameter)的思想。类似的调优可能适用于量子核函数，或许可以通过在数据编码之后调整特征映射线路中的参数来实现，尽管这会融入线路本身。

4. 投影量子核函数

与其使用完整的特征映射状态 $|\phi(x)\rangle$ ，不如在计算核函数之前将其投影到低维子空间。这可以通过测量部分量子比特并进行后选择，或使用特定的线路结构来实现。例如，测量前 $m < n$ 个量子比特，然后根据剩余 $n-m$ 个量子比特的状态（以测量结果为条件）来计算核函数。这有效地降低了维度，可能抵消集中效应，但这需要细致的理论依据，并且实验成本可能较高。

5. 数据依赖型特征映射

有些方法会根据输入数据分布本身动态调整特征映射。这更为复杂，但旨在确保特征映射对数据集中存在的特定变化保持敏感，而非像一个通用随机嵌入 (embedding)那样表现。

实际考量

在实现量子核函数方法时，尤其是对于需要多个量子比特的问题，重要的是要：

监测核函数方差：在测试或开发期间（例如，在模拟器上），明确计算非对角线核矩阵元素的方差。如果它极低，则预期性能会很差。
尝试不同特征映射：测试不同的特征映射结构（深度、纠缠策略、门选择），以观察它们对核函数集中和后续任务性能的影响。
从小规模开始：从量子比特数较少、集中现象不那么严重的情况开始，建立基线，然后细致地扩大规模，同时监测核函数属性。

理解并应对核函数集中对于将量子核函数方法从理论思想推向在更大规模数据集和量子设备上的具体应用十分重要。尽管它代表了与量子计算固有的高维度相关的一个重大挑战，当前对定制特征映射、替代核函数定义和自适应方法的研究，为缓解此问题提供了有前景的途径。

参考文献

Power of data in quantum machine learning, Hsin-Yuan Huang, Michael Broughton, Masoud Mohseni, Ryan Babbush, Sergio Boixo, Hartmut Neven, and Jarrod R. McClean, 2021 Nature Communications, Vol. 12 (Nature Portfolio) DOI: 10.1038/s41467-021-22539-9 - 这项工作分析了量子机器学习模型的表达能力和泛化性能，涉及高维量子特征空间导致的集中效应的限制。