在前面章节中,我们已经将原始文本转换为结构化特征,现在,我们将注意力转向一个核心应用:文本分类。许多实际的自然语言处理问题需要为文本文档分配预定义的类别或标签。例如,识别垃圾邮件、判断产品评论的情感倾向,或根据主题对新闻文章进行分类。本章主要介绍构建文本分类器的监督学习方法。我们将回顾朴素贝叶斯、支持向量机(SVM)和逻辑回归等标准算法,特别关注这些算法在以TF-IDF或N-gram等特征表示的文本数据上的应用。您将学习如何:准备文本特征,以便输入分类模型。使用常用库训练并应用这些模型。使用准确率、召回率、F1分数和混淆矩阵等合适指标评估模型性能。实施可靠的评估策略,如交叉验证。通过超参数调优来优化模型性能。处理与不平衡数据集相关的难题,这是文本分类任务中的常见问题。本章结束时,您将掌握构建、评估和改进用于多种应用的文本分类系统的实际技能。我们将通过一个动手练习来巩固这些原理。