趋近智
推荐逻辑可以由物品特征驱动,例如电影的类型或书籍的作者决定了它与其他物品的相似性。另一种完全不同的方法则是忽略物品属性,转而关注用户的集体行为。这就是协同过滤的基础。
其原理非常直观,反映了日常生活中的推荐方式:“喜欢这个的人也喜欢……”。它的运作基于这样一种观察:如果两个人在过去对某些物品的评价一致,那么他们在未来对其他物品的评价也很可能一致。
假设我们要为一位名叫 Alice 的用户推荐电影。在基于内容的一套系统中,我们会分析 Alice 已经看过并给出高分的电影。如果她喜欢带有反乌托邦主题的科幻电影,我们会寻找更多符合该描述的电影。
协同过滤则以不同的方式回答这个问题。它不去看电影的属性,而是寻找与 Alice 品味相似的其他用户。假设我们找到了另一位用户 Bob,他对许多电影的评分都与 Alice 相似。现在,我们查看 Bob 喜欢但 Alice 尚未看过的电影。这些电影就成了我们的推荐候选。
考虑下面这个简单的场景:
基于他们对《黑客帝国》和《银翼杀手》共同的高评分,系统将 Bob 识别为 Alice 的“邻居”或同好。既然 Bob 非常喜欢《星际穿越》而 Alice 还没看过,那么《星际穿越》就成了对她的强力推荐。这个建议是在没有分析电影本身任何特征(如类型、导演或演员)的情况下做出的。推荐完全由用户行为驱动。
该图表说明了核心逻辑。因为 Alice 和 Bob 都给《黑客帝国》和《银翼杀手》打了高分,系统可以推断 Alice 可能也会偏好《星际穿越》。
这种通常被称为基于邻域的协同过滤的通用方法,主要可以通过两种方式实现:
基于用户的协同过滤 (User-Based Collaborative Filtering): 寻找与目标用户评分模式相似的用户。然后使用这些志趣相投的用户给出的评分,来预测目标用户尚未见过的物品的评分。这就是我们刚才讨论的“像你一样的用户也喜欢……”的方法。
基于物品的协同过滤 (Item-Based Collaborative Filtering): 寻找与目标用户给出好评的物品相似的物品。这里的“相似性”不是基于内容,而是基于用户对它们的集体评分情况。如果大多数喜欢《黑客帝国》的用户也喜欢《银翼杀手》,那么这两个物品就被认为是相似的。当用户喜欢一个新物品时,系统会推荐与其相似的物品。
协同过滤的一个好处是它能够产生带有惊喜感的推荐。基于内容的系统可能会一直在用户偏好的类型内推荐电影,从而产生信息茧房。由于协同过滤依赖于他人的品味,它可以发现意想不到的联系。例如,如果许多喜欢科幻电影的用户恰好也喜欢某部特定的历史纪录片,系统就可以将该纪录片推荐给其他科幻迷,帮助他们发现新的兴趣点。
这项技术建立在一个简单而有效的假设之上:用户过去在评分上的一致性是未来达成一致的有力指标。为了开始构建基于此原理的系统,我们首先需要一种方法来结构化并量化 (quantization)这些用户与物品之间的关系。这就是我们将在下一节构建的用户-物品交互矩阵变得不可或缺的原因。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•