原始文本数据在能有效应用于机器学习模型之前,需要大量预处理。拼写、标点、大小写和无关字符的差异会引入噪声,并对性能造成负面影响。本章将通过介绍自然语言处理中常用的预处理方法,为文本处理做好准备。您将了解自然语言处理流程的典型阶段。我们将研究多种分词方法,包括高级子词技术,如字节对编码(BPE)。我们将比较词干提取和词形还原的效果,分析识别和去除噪声的方法,根据特定需求定制停用词列表,并应用文本规范化流程。本章最后将包含一个实践练习,您将运用这些技术来构建一个文本预处理流程。