机器学习本质上是从数据中学习模式,并使用这些模式对新的、未见过的数据做出预测或决定。但是数据很少能完全清晰地说明问题。通常会涉及噪声、变异性和固有的随机性。这就是概率和统计学成为必要工具的原因。它们提供了处理这种不确定性并从数据中获得有价值认识的框架。让我们来分解一下这两个学科是关于什么的:概率:不确定性的语言概率是数学的一个分支,它致力于量化不确定性。它处理特定事件发生的可能性或几率。想一想日常生活中涉及几率的情形:明天有多大可能下雨?如果你抛掷一枚公平的硬币,它正面朝上的可能性有多大?中彩票的几率是多少?概率提供了一种正式的方式来推断这类情形。它分配一个数值,通常在0到1之间(或0%和100%),以表示事件发生的可能性有多大。概率为0的事件是不可能发生的。概率为1的事件是必然发生的。概率为0.5的事件有相等的机会发生或不发生(就像抛掷公平硬币得到正面一样)。例如,在标准六面骰子上掷出“4”的概率是$1/6$,因为在六个可能的、等可能的结果({1, 2, 3, 4, 5, 6})中,只有一个有利结果(“4”)。在机器学习中,概率帮助我们对预测中的不确定性进行建模。一个分类模型可能不只是预测一封电子邮件是垃圾邮件,而是以0.95的概率是垃圾邮件。这告诉我们模型的置信度。概率论也是许多机器学习算法的基础,帮助它们从数据中学习并进行推断。统计学:从数据中学习统计学是关于收集、组织、分析、解释和呈现数据的科学。概率学处理预测未来事件的可能性,而统计学则常涉及分析过去事件的数据以得出结论或进行推断。想象一下,你想知道一个城市中成年男性的平均身高。测量所有人(整个总体)是不切实际的。相反,你可能会测量一个较小的群体(一个样本),并使用统计学来:描述样本: 计算你的样本群体内的平均身高、身高范围以及身高的分散程度。这通常被称为描述性统计。对总体进行推断: 使用样本信息估算该城市所有成年男性的平均身高,并量化你对该估算值的置信度。这是推断性统计的范畴。统计学提供了以下方法:将复杂数据集概括为易于理解的数值(如平均值、中位数、标准差)。可视化数据以发现趋势和模式(使用直方图和箱线图等图表)。检验关于数据的假设(例如:“这种新药是否比旧药更有效?”)。构建描述数据内部关系的模型。在机器学习中,统计方法随处可见:从理解我们输入模型的数据特征(数据分析),到评估模型的表现,以及判断观察到的表现是否具有统计显著性或仅仅是由于偶然。它们如何结合作用概率和统计学紧密相关,并常一起使用。概率为许多统计方法提供了理论基础。当我们使用统计学从样本中对总体进行推断时,我们使用概率论来量化与这些推断相关的不确定性。例如,统计检验通常计算概率(如p值),以帮助判断数据中观察到的模式是真实存在的可能性大,还是仅仅是随机偶然发生的。本质上:概率使我们能够对随机性和不确定性进行建模和量化。统计学提供了分析从涉及随机性和不确定性的过程中收集的数据的工具,使我们能够从这些数据中学习并做出明智的决定。理解两者对于有效应用机器学习来说是根本的,因为机器学习模型是从数据构建的(统计学),并且通常处理或预测不确定的结果(概率)。