趋近智
在构建推荐系统时,收集到的用户与物品交互数据是最为宝贵的资产。然而,并非所有交互都具有相同的含义。用户给电影打五星评价所传达的信号,与用户仅仅观看预告片所传达的信号大不相同。这种差异将用户反馈分为两个基本类别:显式反馈和隐式反馈。理解两者之间的区别是后续选择算法和评估方法的基础。
显式反馈由用户提供的关于其对物品偏好的直接、有意且明确的信息组成。它是用户兴趣最直接的体现,因为用户在准确地告诉系统他们的感受。
显式反馈的常见例子包括:
显式反馈的主要优点是质量高。5 星评分是明确的正向信号,而 1 星评分则是明确的负面信号,几乎没有误解的空间。
然而,显式反馈面临的主要挑战是稀疏性。大多数用户并不会对他们接触过的大多数物品进行评分。这导致推荐系统中常用的数据结构——用户-物品交互矩阵——大部分是空白的。仅依靠显式反馈意味着可用的高质量数据量有限,这使得为评分较少的用户或新物品生成推荐变得困难。
以下是显式反馈数据的典型表示方式:
| 用户ID | 电影ID | 评分 |
|---|---|---|
| 1 | 110 | 4.0 |
| 1 | 231 | 5.0 |
| 2 | 480 | 5.0 |
| 3 | 110 | 2.0 |
隐式反馈不是由用户直接提供的信息,而是从其行为中推断出来的。这些是用户与系统交互时收集到的被动信号。与显式反馈不同,隐式信号并不是偏好的直接陈述。
隐式反馈的常见例子包括:
隐式反馈的主要优点是其丰富性。收集点击和查看行为比说服用户留下评分要容易得多。这种海量数据有助于解决显式反馈系统中固有的稀疏性问题。
主要缺点是模糊性。隐式信号存在噪声且难以解读。例如:
缺乏交互并不是一个可靠的负面信号。我们可以确信购买代表了正向偏好,但不能确信没有购买就代表负向偏好。在使用隐式数据时,缺乏明确的负面反馈是一个核心挑战。
从用户动作到显式和隐式数据信号的流转过程。
在选择使用显式数据、隐式数据还是两者结合时,会对系统设计产生重大影响。由于数据获取方便,大多数现代推荐系统严重依赖隐式信号,但它们可能会使用显式信号来增强或验证模型。
| 特性 | 显式反馈 | 隐式反馈 |
|---|---|---|
| 信号质量 | 高。明确的用户偏好指示。 | 低。存在噪声且含糊不清。 |
| 数据量 | 稀疏。用户很少提供直接反馈。 | 丰富。每次用户交互都可以是一个信号。 |
| 负面信号 | 明确。低评分表示不喜欢。 | 不明确。缺乏交互不代表不喜欢。 |
| 收集方式 | 需要用户的主动投入。 | 被动且自动地收集。 |
所处理的反馈类型会直接影响建模方法。
显式反馈通常被视为评分预测问题。目标是构建一个模型,预测用户对尚未见过的物品会给出的评分。模型的性能通常使用准确率指标来衡量,如均方根误差 (RMSE) 或平均绝对误差 (MAE),这些内容将在第 5 章中讲解。
隐式反馈通常被设定为物品排序问题。由于没有评分可以预测,目标是根据用户与物品交互的可能性对物品列表进行排序。模型会预测一个置信度分数或交互概率,成功的衡量标准是 Precision@k、平均精度均值 (MAP) 和 NDCG 等排序指标,这些也将在第 5 章中介绍。
总之,区分显式反馈和隐式反馈不仅仅是简单的数据分类。它定义了要解决的问题、可以应用的算法以及衡量成功的指标。随着课程的进行,你将看到不同的算法是如何针对每种反馈类型的独特属性而设计的。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造