在了解了机器学习是什么以及它与传统编程有何不同之后,我们现在转向构成任何机器学习项目主要组成部分的核心词汇和知识点。理解这些术语对于有效处理算法和数据很有必要。本章介绍你会反复遇到的主要组成部分:数据: 我们将说明数据为何如此重要,并讨论特征(输入)和标签(输出)这些内容。数据划分: 你会明白数据集通常被划分为训练集、验证集和测试集的原因。模型: 我们将定义什么是机器学习模型以及它如何表示学到的模式。参数与超参数: 我们将区分模型学习到的内部设置(参数)以及你在训练前设定的外部配置(超参数)。常见问题: 我们将介绍模型训练中两个常见难题:过拟合和欠拟合。评估要点: 你将熟悉一些简单的指标,用于衡量模型表现,例如准确率。到本章末尾,你将牢固掌握所需的术语,以理解后续部分讨论的机器学习流程。