章节 1: 自然语言处理基本原理与高级文本处理

原始文本数据在能有效应用于机器学习 (machine learning)模型之前，需要大量预处理。拼写、标点、大小写和无关字符的差异会引入噪声，并对性能造成负面影响。本章将通过介绍自然语言处理中常用的预处理方法，为文本处理做好准备。

您将了解自然语言处理流程的典型阶段。我们将研究多种分词 (tokenization)方法，包括高级子词 (subword)技术，如字节对编码（BPE）。我们将比较词干提取和词形还原的效果，分析识别和去除噪声的方法，根据特定需求定制停用词列表，并应用文本规范化流程。本章最后将包含一个实践练习，您将运用这些技术来构建一个文本预处理流程。

课程章节

1.1 自然语言处理流程
1.2 高级分词方法
1.3 词干提取与词形还原比较
1.4 文本数据中的噪声处理
1.5 停用词高级定制
1.6 文本标准化方法
1.7 动手实践：构建预处理流程