排名指标：Precision@K 与 Recall@K

评估推荐系统的性能通常涉及衡量不同的维度。虽然有些评估方法（如 RMSE 和 MAE）侧重于衡量模型预测特定评分的准确程度，但大多数推荐应用更看重另一个目标：创建一个将最优质的项目排在最前面的有序列表。用户通常并不在乎系统预测他们会给一部电影打 4.2 分还是 4.3 分；他们最关心的是自己喜欢的电影是否出现在“为你推荐的前 10 名”列表中，以及他们是否真的喜欢这些电影。

这就是排名指标发挥作用的地方。它们将关注点从预测准确性转向推荐列表的排序质量。两个最基础的排名指标是精确率（Precision）和召回率（Recall），它们能帮我们回答两个简单但有价值的问题：

在我们推荐的项目中，有多少是用户真正感兴趣的？（精确率）
在所有用户感兴趣的项目中，我们成功推荐了多少？（召回率）

这些指标通常在特定的截止点 $k$ 处进行评估，因此被称为 Precision at $k$ (P@k) 和 Recall at $k$ (R@k)。 $k$ 的取值通常与应用的界面设计相关，例如移动端应用横幅中显示的排名前 5 的项目，或者每周邮件中推荐的前 20 个项目。

Precision at K (精确率)

Precision at $k$ 衡量的是前 $k$ 个推荐项目中，用户真正感兴趣的项目所占的比例。它是对准确性或质量的度量。高精确率意味着推荐系统能够很好地呈献给用户他们喜欢的项目。

Precision@k 的计算公式很简单：

\text{精确率@k} = \frac{\text{|前 k 个推荐中用户感兴趣的项目数量|}}{k}

让我们来看一个例子。假设我们的系统为一位用户生成了包含 10 部电影的推荐列表。我们将这个列表与留出的测试集进行对比，测试集中包含我们已知该用户观看过并喜欢的电影（即“感兴趣”的项目）。

推荐的前 10 部电影： [电影 A, 电影 B, 电影 C, 电影 D, 电影 E, 电影 F, 电影 G, 电影 H, 电影 I, 电影 J]
测试集中用户的感兴趣项目： [电影 B, 电影 E, 电影 I, 电影 K, 电影 M, 电影 P]

为了计算 P@10，我们查看推荐列表中的哪些电影出现在用户的感兴趣集合中。在这个例子中，电影 B、电影 E 和电影 I 是重合的项目，共有 3 个。

因此，Precision@10 为：

\text{P@10} = \frac{3}{10} = 0.3

这意味着我们推荐的前 10 个项目中，有 30% 是用户感兴趣的。

Recall at K (召回率)

Recall at $k$ 衡量的是在前 $k$ 个推荐中，成功捕获到的所有感兴趣项目占总感兴趣项目的比例。它是对完整性的度量。高召回率意味着系统能够找到大部分用户喜欢的项目。

Recall@k 的计算公式为：

\text{召回率@k} = \frac{\text{|前 k 个推荐中用户感兴趣的项目数量|}}{\text{|用户感兴趣的项目总数|}}

沿用之前的例子：

前 10 个推荐中用户感兴趣的项目： 电影 B, 电影 E, 电影 I（数量 = 3）
测试集中用户感兴趣的项目总数： 电影 B, 电影 E, 电影 I, 电影 K, 电影 M, 电影 P（数量 = 6）

Recall@10 的计算如下：

\text{R@10} = \frac{3}{6} = 0.5

这个结果意味着我们的前 10 名列表成功找到了用户感兴趣的所有项目中的 50%。

精确率与召回率的权衡

你可能会发现精确率和召回率之间存在一种天然的制衡关系。如果你通过增加 $k$ 来推荐更多项目，你就更有可能包含更多感兴趣的项目，这通常会提高召回率。然而，随着列表变长，你也增加了包含不相关项目的风险，这可能会降低你的精确率。

相反，如果你缩短推荐列表（较小的 $k$ ）且只包含你有极高把握的项目，你可能会获得很高的精确率。但你可能会漏掉许多其他感兴趣的项目，导致召回率较低。这种反向关系是信息检索和机器学习 (machine learning)中典型的权衡问题。

随着推荐数量 ( $k$ ) 的增加，召回率往往会上升，因为更多感兴趣的项目更有可能被纳入其中。与此同时，随着列表中混入较不相关的项目，精确率通常会下降。

选择合适的 K 值

$k$ 的选择不仅是一个统计学决策，也是一个产品设计决策。你应该根据推荐内容如何呈现给用户来选择 $k$ 的值。

如果你的网站首页有一个“为你推荐前 5 名”的部分，那么使用 P@5 和 R@5 进行评估最符合实际。
如果你发送一封包含 20 个产品建议的促销邮件，那么 P@20 和 R@20 将是更合适的跟踪指标。

通过将线下评估指标与实际用户体验对齐 (alignment)，你可以对模型表现做出更实际的评估。

定义相关性及局限性

在计算精确率或召回率之前，你必须先定义什么构成了“感兴趣”的项目。

显式数据： 对于评分数据，常见的方法是设定一个阈值。例如，用户打出 4 分或 5 分的任何电影都被视为感兴趣，而评分较低的则不计入。
隐式数据： 对于点击、观看或购买等隐式互动，任何记录在案的正向互动通常都被视为感兴趣的信号。

此外，意识到 P@k 和 R@k 的局限性也很实用：它们对前 $k$ 个列表内部的排序并不敏感。对于这些指标，排在第 1 位的感兴趣项目与排在第 $k$ 位的项目具有完全相同的价值。它们只是将前 $k$ 个推荐视为一个无序集合。但在许多应用中，排在首位的准确性比排在第十位的准确性要有价值得多。针对这一点，我们需要更高级的、对排名敏感的指标，如平均精度均值 (MAP) 和 NDCG，我们将在接下来的内容中讲解这些指标。

这部分内容有帮助吗？

参考文献

Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze, 2008 (Cambridge University Press) - 提供信息检索中精确率和召回率作为衡量指标的基础理解。第8章专门介绍评估。
Recommender Systems: The Textbook, Charu C. Aggarwal, 2016 (Springer) DOI: 10.1007/978-3-319-29659-3 - 详细讨论了推荐系统的评估指标，包括P@k和R@k。第2章专门评估。
Recommender Systems Handbook, Francesco Ricci, Lior Rokach, Bracha Shapira, and Paul B. Kantor, 2010 (Springer Science+Business Media) DOI: 10.1007/978-0-387-85820-3 - 针对推荐系统评估方法提供全面论述，并特别关注排名感知指标。第20章涵盖了评估。