趋近智
你已经构建了从基于内容过滤到矩阵分解的多种推荐模型。接下来的一个自然且必要的问题是:这些模型的效果如何?模型的有效性并非绝对,其表现受应用具体目标的影响。为了做出明智的决策并改进系统,你需要一套正式的方法来衡量并对比它们的输出。
本章介绍相关的评估技术。我们首先区分使用历史数据的离线评估,以及 A/B 测试等在线评估方法。重点在于离线指标的实际应用,这能让你在部署前对模型进行迭代和测试。
你将学习如何实现并解读针对不同评估任务的多种行业标准指标:
学完本章后,你将拥有一套量化 (quantization)推荐模型表现的实用框架,从而能够对比不同的算法并有效地调整其参数 (parameter)。
5.1 推荐系统评估的价值
5.2 离线与在线评估方法
5.3 为推荐系统评估拆分数据
5.4 预测准确性指标:RMSE 与 MAE
5.5 排名指标:Precision@K 与 Recall@K
5.6 平均精度均值 (MAP)
5.7 归一化折损累计增益 (NDCG)
5.8 动手实践:衡量模型性能
© 2026 ApX Machine Learning用心打造