让我们直观地了解分类算法,比如我们刚讨论的逻辑回归,是如何实际分隔数据中的不同组或类别的。设想您有一个数据点的散点图,其中每个点都属于特定类别(例如“垃圾邮件”或“非垃圾邮件”、“猫”或“狗”)。模型如何决定一个新点属于哪个类别呢?它通过一种被称为决策边界的方式来做到这一点。可以把决策边界看作算法学习到的一条看不见的线或一个看不见的曲面。这个边界将数据所在的空间划分为不同区域,每个区域都对应一个预测类别。如果一个数据点落在边界的一侧,模型将其归为一个类别;如果落在另一侧,则将其归为另一个类别。逻辑回归中的决策边界分类算法旨在区分数据中的不同组或类别。想象一下,数据点散布在图表中,每个点都属于特定类别(例如“垃圾邮件”或“非垃圾邮件”,“猫”或“狗”)。模型如何决定一个新点属于哪个类别呢?它通过一个称为决策边界的机制来完成。如果 $p \ge 0.5$,预测为类别1。如果 $p < 0.5$,预测为类别0。决策边界正是模型不确定的时候,意味着概率恰好是0.5。Sigmoid函数何时输出0.5?当其输入正好是0时。请记住,逻辑回归中Sigmoid函数的输入通常是特征的线性组合,例如对于两个特征($x_1$, $x_2$)来说,$z = w_0 + w_1 x_1 + w_2 x_2$。因此,决策边界由以下方程定义:$$w_0 + w_1 x_1 + w_2 x_2 = 0$$对于具有两个特征的数据,这个方程代表一条直线。这条线将二维平面分成两个区域:一个是模型预测为类别1的区域($z > 0$,因此 $p > 0.5$),另一个是预测为类别0的区域($z < 0$,因此 $p < 0.5$)。直观呈现线性决策边界让我们具体化这一点。设想我们有属于两个类别(红色和蓝色)的数据点,它们根据两个特征(特征1和特征2)绘制。一个在此数据上训练的逻辑回归模型可能会找到一个线性决策边界,如下所示。{"layout": {"xaxis": {"title": "特征1", "range": [0, 8]}, "yaxis": {"title": "特征2", "range": [0, 8]}, "showlegend": true, "title": "线性决策边界示例"}, "data": [{"x": [1, 2, 2.5, 3, 1.5, 3.5], "y": [1.5, 2.5, 1, 3, 3.5, 1.8], "mode": "markers", "type": "scatter", "name": "类别0 (红色)", "marker": {"color": "#fa5252", "size": 8}}, {"x": [5, 6, 7, 5.5, 6.5, 7.5], "y": [6, 5, 7, 4.5, 6.5, 5.5], "mode": "markers", "type": "scatter", "name": "类别1 (蓝色)", "marker": {"color": "#4263eb", "size": 8}}, {"x": [0, 8], "y": [7, -1], "mode": "lines", "type": "scatter", "name": "决策边界", "line": {"color": "#495057", "width": 2}}]}一个简单的散点图,显示了两类数据点(红色和蓝色),它们由逻辑回归等模型学习到的线性决策边界(灰色线)分隔。通常在线的上方和右侧的点将被分类为蓝色(类别1),而在线的下方和左侧的点将被分类为红色(类别0)。图上绘制的任何新数据点都将根据其落在灰色线的哪一侧进行分类。这种可视化方式有助于理解模型如何根据输入特征做出判断。线性边界需要提及的是,决策边界并非总是直线。虽然基本的逻辑回归通常产生线性边界,但分类问题常常需要更复杂的形状才能有效地分隔类别。设想类别以更复杂的方式混合,或许一个类别集中在中间,另一个形成环绕。一条直线在分隔这些方面不会很好。其他算法,包括我们接下来会介绍的K近邻(KNN)算法,或者对逻辑回归的修改(例如使用多项式特征),可以生成非线性决策边界(曲线、圆形甚至更不规则的形状)。决策边界为何重要理解决策边界有助于您:可视化模型行为: 它为您提供了一种直观的图形感受,了解模型如何分离数据。理解模型复杂性: 简单的边界(如直线)意味着模型更简单,而非常弯曲的边界表明模型更复杂。识别潜在问题: 过于复杂的边界如果完美地分离了所有训练点,可能表示过拟合(模型对训练数据学习得过于细致,包括噪声,可能在新数据上表现不佳)。未能很好地分离类别的边界可能表示欠拟合(模型过于简单)。当我们查看不同的分类算法时,请注意它们倾向于创建哪种决策边界。这会让你对它们的优点和缺点有所了解,针对不同类型的数据分布。接下来,我们将考察K近邻算法,它采用一种截然不同的分类方法,并产生一种不同类型的决策边界。