将文本通过TF-IDF和N-gram等技术转换为数值特征向量,是应用机器学习算法的必要前置步骤。一旦文本数据被数值化表示,就可以使用标准机器学习算法进行分类。主要思路与其他机器学习领域保持一致:模型在带有标签的数据(文本文档及其类别配对)上进行训练,以学习模式,从而预测新的、未见过文档的类别。幸运的是,我们创建的特征表示(如稀疏TF-IDF矩阵)与许多成熟的分类算法兼容。尽管存在大量分类器,但有少数算法在处理文本常见的高维稀疏数据时,因其特性而被证明特别有效,或可作为文本分类任务的优秀起点。我们来回顾一些这些基本算法。朴素贝叶斯分类器朴素贝叶斯分类器是一系列简单的概率算法,它们基于贝叶斯定理,并假设特征之间存在强(“朴素”)独立性。尽管有这种简化,它们在文本分类中通常表现出人意料的好,尤其可以作为基准算法。核心思路是根据文档的特征计算其属于某个类别的概率。根据贝叶斯定理:$$ P(\text{类别}|\text{文档}) = \frac{P(\text{文档}|\text{类别}) \times P(\text{类别})}{P(\text{文档})} $$“朴素”之处在于假设特征(例如,词语的存在或计数)在给定类别的情况下是条件独立的:$$ P(\text{词语}_1, \text{词语}_2, ..., \text{词语}_n|\text{类别}) \approx P(\text{词语}_1|\text{类别}) \times P(\text{词语}_2|\text{类别}) \times ... \times P(\text{词语}_n|\text{类别}) $$这个假设大大简化了计算。对于文本,常见的变体包括:多项式朴素贝叶斯 (Multinomial Naive Bayes): 通常用于词频计数或TF-IDF值。它建模每个词在文档中出现特定计数的概率,该文档属于某个特定类别。伯努利朴素贝叶斯 (Bernoulli Naive Bayes): 用于二元特征(例如,词语的存在或缺失)。它建模词语在一个给定类别的文档中出现或不出现的概率。用于文本的优点:计算效率高,训练速度快,即使在高维特征空间(许多独特词语)中也是如此。需要相对较少的训练数据来估计参数。通常提供稳定的性能基准。用于文本的缺点:条件独立性假设对于语言来说很少成立(词序和上下文很重要)。对特征表示方式(计数、TF-IDF或二元)敏感。支持向量机 (SVM)支持向量机运作方式不同。它们不依赖概率,而是旨在找到最佳超平面(一个边界),该超平面能最佳地分离高维特征空间中属于不同类别的数据点。“最佳”超平面是指最大化间隔的超平面,即超平面与每个类别中最近数据点(支持向量)之间的距离。对于表示为高维向量(例如TF-IDF)的文本数据,支持向量机通常非常有效。虽然支持向量机可以使用各种核函数(如多项式或径向基函数RBF)将数据映射到更高维度以找到非线性分离,但线性核对于文本分类来说通常足够且计算高效。线性核意味着决策边界是一条直线(二维)、一个平面(三维)或一个超平面(更高维)。用于文本的优点:在高维空间中有效,这在文本特征中很常见。即使维度数量大于样本数量,也表现良好。内存效率高,因为它只使用训练点的一个子集(支持向量)来构建决策函数。通过不同的核函数具有多功能性(尽管线性核通常对文本有效)。用于文本的缺点:训练计算量大,特别是对于非常大的数据集。与朴素贝叶斯或逻辑回归相比,其解释性较低;更难理解预测的原因。性能可能对正则化参数(C)和核参数的选择敏感。逻辑回归尽管其名称如此,逻辑回归是一种广泛用于二元分类任务的算法(它可以通过一对多方法扩展到多类别问题)。它使用逻辑(S型)函数来建模输入属于特定类别的概率。该模型学习每个特征的权重,类似于线性回归。特征的加权和随后通过S型函数,该函数将输出压缩到0到1之间,可解释为概率。$$ P(y=1|X) = \sigma(w_0 + w_1 x_1 + w_2 x_2 + ... + w_n x_n) $$其中,$X = (x_1, ..., x_n)$ 是输入特征(例如TF-IDF值),$w_i$ 是学习到的权重,$\sigma$ 是S型函数:$$ \sigma(z) = \frac{1}{1 + e^{-z}} $$对于文本分类,逻辑回归是一个强大的基准算法。由于文本特征通常是高维且稀疏的,因此几乎总是运用正则化(如L1或L2)。正则化根据学习到的权重的大小为损失函数添加惩罚项,这有助于防止过拟合并提高泛化能力。L2正则化促使权重变小,而L1正则化可以产生稀疏权重(将一些特征权重精确设为零),从而有效地进行特征选择。用于文本的优点:提供概率输出,这对于排序或设置置信度阈值很有用。学习到的权重可以在特征重要性方面提供一定程度的可解释性(特别是配合适当的缩放和正则化)。训练高效,并在稀疏数据(如文本特征)上表现良好。正则化技术(L1、L2)容易获得且有效。用于文本的缺点:假设特征与结果的对数几率之间存在线性关系。可能无法像核化支持向量机或更复杂的模型那样有效捕捉复杂、非线性模式。可能对特征之间的多重共线性敏感,尽管正则化有助于缓解这一点。本次回顾概述了文本分类中常用算法的类型。每种算法都有其优缺点,最佳选择通常取决于具体数据集、特征的性质、计算资源以及对可解释性的需求。在后续章节中,我们将讨论如何实际应用这些模型,严格评估它们的性能,并调整它们以获得最佳结果。