推荐引擎的分类

推荐引擎并非单一的技术类型。相反，它们是一系列算法的集合，可以根据所使用的数据和采用的方法分为不同的类别。了解这一分类体系对于为特定问题选择合适的方法非常重要。推荐引擎的三个主要类别是：基于内容的过滤、协同过滤，以及结合了前两者特点的混合系统。

推荐系统算法的高层分类。

基于内容的过滤

基于内容的过滤遵循一个简单的原理：如果你喜欢某个物品，你可能也会喜欢与之相似的其他物品。这种方法专注于物品本身的属性或“内容”。例如，如果你看了一部由詹姆斯·卡梅隆执导的科幻电影，基于内容的系统会推荐其他科幻电影，或者其他由詹姆斯·卡梅隆执导的电影。

为了实现这一点，系统首先必须理解物品。这涉及为每个物品创建一个详细描述其特征的档案。对于电影，这些特征可能包括类型、导演、演员和剧情关键词。对于文章，特征可能是主题、作者和文中使用到的词汇。接着，系统会根据用户之前评分过或表现出兴趣的物品特征来构建用户档案。推荐则是通过将用户档案与其他物品的档案进行匹配来产生的。

优点：
- 用户独立性： 对一个用户的推荐不依赖于其他用户的行为。这使得系统更容易扩展到大量用户。
- 解决新物品问题： 只要新电影的特征可用，就可以立即进行推荐，即使还没有人给它评分。这是优于其他方法的一个显著优势。
- 透明度： 推荐结果易于解释。例如，“我们向你推荐这部电影，是因为你喜欢其他科幻类型的电影。”
缺点：
- 发现惊喜的能力有限： 系统往往推荐与用户已经看过的物品相似的内容，导致难以发现新的兴趣点。这通常被称为“信息茧房”问题。
- 需要特征工程： 基于内容的系统效果高度依赖于物品特征的质量。提取和选择这些特征可能是一个困难且耗时的过程。

协同过滤

协同过滤采用不同的方法。它通过收集许多用户的偏好或行为信息（即协同工作）来运行。其基本假设是：如果两个用户过去在某些物品上达成了一致，那么他们在未来也很可能在其他物品上达成一致。系统不需要了解物品本身的任何信息，只需要知道用户是如何与它们互动的。

例如，如果用户 A 和用户 B 都对《黑客帝国》和《银翼杀手》给出了高分，而用户 A 还喜欢《盗梦空间》，系统就可能向用户 B 推荐《盗梦空间》。这种方法利用“群体的智慧”来寻找新物品。

协同过滤算法通常分为两个子类。

基于邻域的方法

也称为基于内存的方法，这些算法直接利用用户与物品的交互数据。它们通过寻找相似用户或物品的“邻域”来进行预测。

基于用户的协同过滤： 该方法根据评分历史找到与目标用户相似的用户。然后，它会推荐那些这些相似用户喜欢但目标用户尚未看过的物品。
基于物品的协同过滤： 该方法不是寻找相似用户，而是根据相同用户对物品的评分方式来寻找相似的物品。如果用户喜欢某个特定物品，系统会推荐与其相似的其他物品。由于其稳定性和可扩展性，这种方法通常更受欢迎。

基于模型的方法

这些方法利用机器学习 (machine learning)技术在用户与物品的交互数据中寻找模式。目标是建立一个能够预测用户对未见物品评分的模型。这一类别中一种突出的技术是矩阵分解，它将大型的用户-物品交互矩阵分解为较小的、低维的矩阵，分别代表用户和物品的隐特征。这些隐特征可能代表抽象的属性，如电影的类型或用户对某种电影风格的偏好，但它们是从数据中自动学习到的。

优点：
- 发现意料之外的物品： 由于它依赖于用户行为而非物品特征，协同过滤可以推荐那些带有惊喜感并能扩展用户品味的物品。
- 无需领域知识： 系统不需要物品本身的任何信息，只需要交互数据。
缺点：
- 冷启动问题： 系统无法为新用户或新物品提供推荐，因为还没有关于他们的交互数据。
- 数据稀疏性： 在大多数场景下，用户-物品交互矩阵非常稀疏，这意味着大多数用户只对极少数物品进行了评分。这使得寻找具有足够重叠评分的用户或物品来做出可靠预测变得困难。

混合系统

如你所料，混合系统是通过结合基于内容和协同过滤的方法构建的。其目标是利用每种方法的长处，同时减轻它们各自的短处。例如，混合系统可以使用基于内容的模型来处理新物品（解决冷启动问题），而对数据充足的用户和物品则使用协同过滤模型。

结合这些技术的方法有很多。一些常见的策略包括：

加权混合： 来自不同模型的预测分数使用加权平均值进行组合。
切换混合： 系统根据特定标准（例如用户或物品可用的数据量）在不同的推荐模型之间切换。
特征组合： 基于内容的特征被直接合并到协同过滤模型中，例如，通过使用它们来增强用户或物品的档案。

在整个课程中，我们将使用每种主要方法来构建系统。我们将从下一章的基于内容过滤开始，接着学习基于邻域和基于模型的协同过滤，最后构建一个将这些方法整合在一起的混合系统。

参考文献

Recommender Systems Handbook, Francesco Ricci, Lior Rokach, Bracha Shapira, 2015 (Springer) DOI: 10.1007/978-1-4939-0713-0 - 一本全面的手册，涵盖了推荐系统的所有主要类型及其算法。
Item-based collaborative filtering recommendation algorithms, Badrul Munir Sarwar, George Karypis, Joseph A. Konstan, John Riedl, 2001 Proceedings of the 10th international conference on World Wide Web (ACM) DOI: 10.1145/371920.372071 - 一篇开创性论文，介绍了并评估了基于物品的协同过滤，一种广泛使用的基于邻域的方法。
Matrix factorization techniques for recommender systems, Yehuda Koren, Robert M. Bell, Chris Volinsky, 2009 Computer, Vol. 42 (IEEE) DOI: 10.1109/MC.2009.263 - 关于矩阵分解的权威著作，这是一种强大的基于模型的协同过滤技术，包含其在大规模系统中的应用讨论。
Recommender systems: A survey, Yingda Wang, Yan Zhang, 2020 Journal of Physics: Conference Series, Vol. 1586 DOI: 10.1088/1742-6596/1586/1/012028 - 一份近期综述，概述了各种推荐系统类型，包括基于内容的、协同过滤的和混合方法。