趋近智
基于近邻的协同过滤是一种直观的方法,通过寻找具有相似评分历史的用户或物品来生成推荐。这种方法通常被认为是基于内存的,它直接处理用户-物品交互矩阵,通过识别“邻居”来预测用户的偏好。虽然这些方法行之有效,但随着数据集规模变大且变得稀疏,它们的表现可能会下降。例如,在数百万用户或物品中计算相似度会消耗大量计算资源。此外,如果两个物品从未被共同评分过,就无法确定它们的相似度,这是稀疏数据集中的常见问题。
为了应对这些挑战,我们现在将注意力转向基于模型的协同过滤。这些方法不在预测时依赖整个数据集,而是使用交互数据来训练一个更紧凑的模型,从而学习用户口味的内在模式。训练好的模型随后可以高效地进行预测,而无需再次扫描所有的用户-物品交互。
最主流的一类基于模型的技术是围绕发现隐因子展开的。这些是隐藏的特征,有助于解释观察到的评分。对于电影数据集,这些因子可能代表“科幻”或“喜剧”等类型,某位导演的存在,或者更抽象的属性,如“成长故事”或“激烈动作”。重点在于我们不需要预先指定这些因子;模型会从评分数据的模式中自动学习它们。
其核心思想是将用户和物品都表示在一个共享的低维隐空间中。
推荐是通过在这个隐空间中比较用户向量和物品向量来完成的。如果向量对齐 (alignment)良好,意味着用户喜欢该物品所具备的因子,模型就会预测一个高分。这种预测通常计算为两个向量的点积。这种方法允许模型进行泛化。它可以向一位热爱科幻的用户推荐一部科幻电影,即使该用户以前从未给同一位导演或同一批演员的电影评过分。
基于近邻的方法依赖于直接的、可观察的连接(左),而隐因子模型将用户和物品映射到共享的特征空间来推断偏好(右)。
这就引出了矩阵分解,这是揭示这些隐因子的主要技术。正如本章导言中所述,矩阵分解将大型且稀疏的用户-物品交互矩阵 () 分解为两个较小的稠密矩阵:用户-因子矩阵 () 和物品-因子矩阵 ()。来自 的用户向量与来自 的物品向量的点积得到了预测评分 。
通过学习这些因子矩阵,我们创建了用户偏好和物品属性的一种强大且紧凑的表示方式。这种基于模型的方法相比近邻方法有几个优点:
在接下来的部分中,我们将了解矩阵分解的运作机制,从其最著名的算法之一——奇异值分解 (SVD) 开始。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•