趋近智
推荐引擎并非单一的技术类型。相反,它们是一系列算法的集合,可以根据所使用的数据和采用的方法分为不同的类别。了解这一分类体系对于为特定问题选择合适的方法非常重要。推荐引擎的三个主要类别是:基于内容的过滤、协同过滤,以及结合了前两者特点的混合系统。
推荐系统算法的高层分类。
基于内容的过滤遵循一个简单的原理:如果你喜欢某个物品,你可能也会喜欢与之相似的其他物品。这种方法专注于物品本身的属性或“内容”。例如,如果你看了一部由詹姆斯·卡梅隆执导的科幻电影,基于内容的系统会推荐其他科幻电影,或者其他由詹姆斯·卡梅隆执导的电影。
为了实现这一点,系统首先必须理解物品。这涉及为每个物品创建一个详细描述其特征的档案。对于电影,这些特征可能包括类型、导演、演员和剧情关键词。对于文章,特征可能是主题、作者和文中使用到的词汇。接着,系统会根据用户之前评分过或表现出兴趣的物品特征来构建用户档案。推荐则是通过将用户档案与其他物品的档案进行匹配来产生的。
优点:
缺点:
协同过滤采用不同的方法。它通过收集许多用户的偏好或行为信息(即协同工作)来运行。其基本假设是:如果两个用户过去在某些物品上达成了一致,那么他们在未来也很可能在其他物品上达成一致。系统不需要了解物品本身的任何信息,只需要知道用户是如何与它们互动的。
例如,如果用户 A 和用户 B 都对《黑客帝国》和《银翼杀手》给出了高分,而用户 A 还喜欢《盗梦空间》,系统就可能向用户 B 推荐《盗梦空间》。这种方法利用“群体的智慧”来寻找新物品。
协同过滤算法通常分为两个子类。
也称为基于内存的方法,这些算法直接利用用户与物品的交互数据。它们通过寻找相似用户或物品的“邻域”来进行预测。
这些方法利用机器学习技术在用户与物品的交互数据中寻找模式。目标是建立一个能够预测用户对未见物品评分的模型。这一类别中一种突出的技术是矩阵分解,它将大型的用户-物品交互矩阵分解为较小的、低维的矩阵,分别代表用户和物品的隐特征。这些隐特征可能代表抽象的属性,如电影的类型或用户对某种电影风格的偏好,但它们是从数据中自动学习到的。
优点:
缺点:
如你所料,混合系统是通过结合基于内容和协同过滤的方法构建的。其目标是利用每种方法的长处,同时减轻它们各自的短处。例如,混合系统可以使用基于内容的模型来处理新物品(解决冷启动问题),而对数据充足的用户和物品则使用协同过滤模型。
结合这些技术的方法有很多。一些常见的策略包括:
在整个课程中,我们将使用每种主要方法来构建系统。我们将从下一章的基于内容过滤开始,接着学习基于邻域和基于模型的协同过滤,最后构建一个将这些方法整合在一起的混合系统。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造