协同过滤背后的逻辑

推荐逻辑可以由物品特征驱动，例如电影的类型或书籍的作者决定了它与其他物品的相似性。另一种完全不同的方法则是忽略物品属性，转而关注用户的集体行为。这就是协同过滤的基础。

其原理非常直观，反映了日常生活中的推荐方式：“喜欢这个的人也喜欢……”。它的运作基于这样一种观察：如果两个人在过去对某些物品的评价一致，那么他们在未来对其他物品的评价也很可能一致。

从物品属性到人际关联

假设我们要为一位名叫 Alice 的用户推荐电影。在基于内容的一套系统中，我们会分析 Alice 已经看过并给出高分的电影。如果她喜欢带有反乌托邦主题的科幻电影，我们会寻找更多符合该描述的电影。

协同过滤则以不同的方式回答这个问题。它不去看电影的属性，而是寻找与 Alice 品味相似的其他用户。假设我们找到了另一位用户 Bob，他对许多电影的评分都与 Alice 相似。现在，我们查看 Bob 喜欢但 Alice 尚未看过的电影。这些电影就成了我们的推荐候选。

考虑下面这个简单的场景：

Alice 的评分： 《黑客帝国》(5/5)、《银翼杀手》(5/5)、《盗梦空间》(4/5)。
Bob 的评分： 《黑客帝国》(5/5)、《银翼杀手》(4/5)、《星际穿越》(5/5)。

基于他们对《黑客帝国》和《银翼杀手》共同的高评分，系统将 Bob 识别为 Alice 的“邻居”或同好。既然 Bob 非常喜欢《星际穿越》而 Alice 还没看过，那么《星际穿越》就成了对她的强力推荐。这个建议是在没有分析电影本身任何特征（如类型、导演或演员）的情况下做出的。推荐完全由用户行为驱动。

该图表说明了核心逻辑。因为 Alice 和 Bob 都给《黑客帝国》和《银翼杀手》打了高分，系统可以推断 Alice 可能也会偏好《星际穿越》。

一体两面

这种通常被称为基于邻域的协同过滤的通用方法，主要可以通过两种方式实现：

基于用户的协同过滤 (User-Based Collaborative Filtering)： 寻找与目标用户评分模式相似的用户。然后使用这些志趣相投的用户给出的评分，来预测目标用户尚未见过的物品的评分。这就是我们刚才讨论的“像你一样的用户也喜欢……”的方法。
基于物品的协同过滤 (Item-Based Collaborative Filtering)： 寻找与目标用户给出好评的物品相似的物品。这里的“相似性”不是基于内容，而是基于用户对它们的集体评分情况。如果大多数喜欢《黑客帝国》的用户也喜欢《银翼杀手》，那么这两个物品就被认为是相似的。当用户喜欢一个新物品时，系统会推荐与其相似的物品。

惊喜发现的效果

协同过滤的一个好处是它能够产生带有惊喜感的推荐。基于内容的系统可能会一直在用户偏好的类型内推荐电影，从而产生信息茧房。由于协同过滤依赖于他人的品味，它可以发现意想不到的联系。例如，如果许多喜欢科幻电影的用户恰好也喜欢某部特定的历史纪录片，系统就可以将该纪录片推荐给其他科幻迷，帮助他们发现新的兴趣点。

这项技术建立在一个简单而有效的假设之上：用户过去在评分上的一致性是未来达成一致的有力指标。为了开始构建基于此原理的系统，我们首先需要一种方法来结构化并量化 (quantization)这些用户与物品之间的关系。这就是我们将在下一节构建的用户-物品交互矩阵变得不可或缺的原因。

参考文献

Recommender Systems: The Textbook, Charu C. Aggarwal, 2016 (Springer) DOI: 10.1007/978-3-319-29659-3 - 本书全面介绍了推荐系统，包括协同过滤技术的详细解释、其基本原理以及与内容推荐方法的区别。
GroupLens: An Open Architecture for Collaborative Filtering of Netnews, Paul Resnick, Neophytos Iacovou, Mitesh Suchak, Peter Bergstrom, John Riedl, 1994 Proceedings of the 1994 ACM Conference on Computer Supported Cooperative Work (ACM Press) DOI: 10.1145/192844.192905 - 一篇开创性论文，介绍了首批广受认可的协同过滤系统之一GroupLens，确立了基于用户的推荐方法。
Item-based collaborative filtering recommendation algorithms, Badrul Sarwar, George Karypis, Joseph A Konstan, John Riedl, 2001 Proceedings of the 10th international conference on World Wide Web (Association for Computing Machinery) DOI: 10.1145/371920.372071 - 本文介绍并实证评估了基于项目的协同过滤，这是一种通过用户评分推导项目相似性，构成邻域协同过滤另一面重要方法。
Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions, Gediminas Adomavicius, Alexander Tuzhilin, 2005 IEEE Transactions on Knowledge and Data Engineering, Vol. 17 (IEEE) DOI: 10.1109/TKDE.2005.99 - 一篇高被引的综述文章，全面概述了推荐系统技术，包括对协同过滤原理、类型及其如意外发现等优势的详细讨论。