趋近智
机器学习 (machine learning)的核心在于从数据中学习模式。但在此背景下,“学习”意味着什么?我们又如何处理数据和预测中固有的不确定性呢?这就是概率和统计学成为不可或缺的工具之处。它们提供了数学语言和方法,用于理解数据,构建能从中学习的模型,并评估这些模型的表现。
可以这样理解:
机器学习 (machine learning)工作流程的几乎每个阶段都依赖于概率和统计学中的理念:
在训练模型之前,你需要理解你的数据。描述性统计(我们将在第2章详细介绍)提供了平均值、中位数、标准差以及直方图等可视化工具,用于总结数据特征。这种初步分析有助于发现数据中的规律、异常值和潜在问题,从而指导你如何预处理数据和选择合适的模型。
许多机器学习 (machine learning)算法直接源于概率原理。例如:
你如何知道你训练的机器学习 (machine learning)模型是否确实有用?统计学提供了评估模型性能的指标和流程。
机器学习 (machine learning)模型很少提供绝对确定的预测。概率理论允许模型表达不确定性。例如,医疗诊断模型可能会输出患者患有某种疾病的概率,这比简单的二元预测能给医生提供更详细的信息。天气预报模型预测的是下雨的概率,而不是明确的“是”或“否”。处理和传达这种不确定性是负责任地应用机器学习的核心内容。
通常,我们只有一部分数据样本,而不是我们感兴趣的完整总体(如“总体与样本”部分所述)。统计推断(第5章)提供了根据有限的样本数据得出关于更大总体的结论的方法。这对于理解一个在样本上训练的模型如何很好地推广到新的、未见过的数据非常重要。
假设你想构建一个“模型”来预测一枚硬币是否公平(有50%的几率出现正面)。
虽然这很简单,但它说明了我们如何使用观察到的数据(统计学)来对基本概率和过程进行推断,就像我们在更复杂的机器学习 (machine learning)场景中所做的那样。
总之,概率和统计学不仅仅是旁支主题;它们与机器学习的理论和实践紧密结合。理解这些基础将使你具备能力,更好地掌握机器学习算法的工作原理、如何为它们准备数据,以及如何有效地解释和评估其结果。随着我们课程的推进,你将看到这些联系通过实际例子得到加强。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造