趋近智
在前面章节中,我们已经将原始文本转换为结构化特征,现在,我们将注意力转向一个核心应用:文本分类。许多实际的自然语言处理问题需要为文本文档分配预定义的类别或标签。例如,识别垃圾邮件、判断产品评论的情感倾向,或根据主题对新闻文章进行分类。
本章主要介绍构建文本分类器的监督学习方法。我们将回顾朴素贝叶斯、支持向量机(SVM)和逻辑回归等标准算法,特别关注这些算法在以TF-IDF或N-gram等特征表示的文本数据上的应用。您将学习如何:
本章结束时,您将掌握构建、评估和改进用于多种应用的文本分类系统的实际技能。我们将通过一个动手练习来巩固这些原理。
3.1 分类算法回顾
3.2 将分类器应用于文本数据
3.3 分类模型评估指标
3.4 交叉验证策略
3.5 文本模型的超参数调优
3.6 处理不平衡数据集
3.7 实践:构建文本分类器
© 2026 ApX Machine Learning用心打造