使用加权平均值进行预测

为了估算用户对未观看物品的评分，特别是在使用基于邻域的协同过滤推荐系统中，一种方法是参考相似用户或物品（通常称为“邻居”）的行为。目标是预测用户对某个之前未接触过的物品给出的分数。这种预测是通过计算这些邻居评分的加权平均值得出的。核心思想很简单：越相似的邻居，其意见对预测的影响就越大。

让我们来看看基于用户和基于物品的两种方法是如何运作的。

在基于用户的方法中，我们根据相似用户对同一物品的评分来预测目标用户对该物品的评分。然而，简单的平均值往往会产生误导，因为不同用户的评分标准各不相同。一个用户可能只在 3 到 5 星之间评分，而另一个用户则使用完整的 1 到 5 星范围。

为了平衡这种差异，我们使用每个用户相对于其平均评分的偏差。用户 $u$ 对物品 $i$ 的评分预测公式为：

P_{u,i} = \bar{r}_u + \frac{\sum_{v \in N} \text{sim}(u, v) \cdot (r_{v,i} - \bar{r}_v)}{\sum_{v \in N} |\text{sim}(u, v)|}

让我们详细分析一下这个公式：

$P_{u,i}$ 是目标用户 $u$ 对物品 $i$ 的预测评分。
$\bar{r}_u$ 是目标用户 $u$ 的平均评分。我们在最后将其加回，以便将预测结果还原到该用户的原始评分标准中。
$N$ 是与 $u$ 最相似且已经对物品 $i$ 进行过评分的用户邻域。
$\text{sim}(u, v)$ 是用户 $u$ 与邻居用户 $v$ 之间的相似度分数。
$r_{v,i} - \bar{r}_v$ 是邻居 $v$ 对物品 $i$ 的评分，减去其平均评分 $\bar{r}_v$ 后的调整值。这个值表示邻居认为该物品比其平均水平好多少或差多少。
分母 $\sum_{v \in N} |\text{sim}(u, v)|$ 是归一化 (normalization)项，即相似度权重 (weight)绝对值的总和。

假设我们要预测你对电影《银翼杀手 2049》的评分。你对所有电影的平均评分是 3.5。我们找到了三个也评价过这部电影的相似用户（即你的邻居）。

用户	与你的相似度	对《银翼杀手 2049》的评分	用户的平均评分
Alex	0.9	5.0	4.0
Ben	0.8	4.0	3.2
Chris	0.5	3.0	3.8

首先，我们计算邻居调整后评分的加权和：

分子是这些值的总和： $0.9 + 0.64 + (-0.4) = 1.14$ 。分母是相似度分数绝对值的总和： $|0.9| + |0.8| + |0.5| = 2.2$ 。

现在，我们将这些代入公式： $P_{\text{你}, \text{银翼杀手}} = 3.5 + \frac{1.14}{2.2} \approx 3.5 + 0.52 = 4.02$

我们的模型预测你会给《银翼杀手 2049》打大约 4.02 分。这个预测受 Alex 的影响较大，因为他是你最相似的邻居，且他非常喜欢这部电影。

基于用户的推荐系统的预测过程。越相似的邻居（如 Alex）的意见对最终预测评分的贡献越大。

对于基于物品的方法，逻辑相似但更简单。为了预测用户 $u$ 对物品 $i$ 的评分，我们会查看用户 $u$ 已经评过分的分的其他物品。然后我们计算这些评分的加权平均值，权重 (weight)是物品 $i$ 与其他物品之间的相似度。

公式为：

P_{u,i} = \frac{\sum_{j \in N} \text{sim}(i, j) \cdot r_{u,j}}{\sum_{j \in N} |\text{sim}(i, j)|}

以下是详细说明：

请注意，这里不需要根据用户平均分进行调整。整个计算基于单个用户 ( $u$ ) 的评分，因此评分标准本身就是一致的。

我们仍然以预测你对《银翼杀手 2049》的评分为例。这次我们使用基于物品的方法。我们找到了三部与《银翼杀手 2049》相似且你已经评价过的电影。

你评分的加权和（分子）为：

相似度权重之和（分母）为：

预测评分为： $P_{\text{你}, \text{银翼杀手}} = \frac{11.07}{2.53} \approx 4.37$

基于物品的模型预测你会给这部电影打 4.37 分，这是基于你对相似科幻电影的正面评价得出的。

通过应用这些加权平均公式，我们可以将相似度分数转化为具体的、个性化的评分预测。这些预测构成了推荐列表的基础，使我们能够对未见过的物品进行排序，并推荐用户最可能喜欢的物品。

参考文献

Item-Based Collaborative Filtering Recommendation Algorithms, Badrul Sarwar, George Karypis, Joseph Konstan, John Riedl, 2001 Proceedings of the 10th International Conference on World Wide Web (Association for Computing Machinery) DOI: 10.1145/371920.372071 - 这篇基础论文介绍了基于物品的协同过滤方法，为其使用加权平均进行预测的公式奠定了基础。
Recommender Systems: The Textbook, Charu C. Aggarwal, 2016 (Springer) DOI: 10.1007/978-3-319-29659-3 - 一本全面的学术书籍，涵盖推荐系统的理论与实践，包括对基于用户和基于物品的协同过滤预测方法的详细说明。
Recommender Systems Handbook, Francesco Ricci, Lior Rokach, Bracha Shapira, 2022 (Springer US) DOI: 10.1007/978-1-0716-2197-4 - 本手册收录了领先研究人员的贡献，对协同过滤技术和各种预测算法进行了深入探讨。