趋近智
在学会实现监督学习 (supervised learning)模型并进行数据预处理之后,下一步自然是弄清楚这些模型表现如何以及如何选择最佳配置。仅仅在模型训练所用的数据上评估它可能会产生误导。模型可能在训练数据上表现完美,但在新的、未见过的数据上表现很差。本章将应对这个问题。
我们将考察常见的过拟合 (overfitting)问题(模型对训练数据,包括其噪声,学习得过于充分)和欠拟合 (underfitting)问题(模型过于简单以至于无法捕捉到数据背后的规律)。你将学会方法来对模型性能进行更实际的评估。
具体来说,本章涵盖:
train_test_split函数,将数据集划分为训练集和测试集进行初步评估。GridSearchCV),系统地调整模型超参数 (parameter) (hyperparameter)并找到最佳设置。到本章结束时,你将能够严谨地评估你的机器学习 (machine learning)模型,并对模型选择和配置做出明智的决定。
5.1 过拟合与欠拟合问题
5.2 数据划分:训练集与测试集
5.3 交叉验证简介
5.4 实现K折交叉验证
5.5 分层K折用于分类
5.6 网格搜索用于超参数调整
5.7 动手实践:模型评估与选择