章节 7: 数据清洗与预处理流水线

原始文本数据，特别是来自网络爬取这样的大型数据源，在有效用于训练大型语言模型之前，需要大幅整理。本章讲述清洗和整理这些数据集所涉及的实际操作步骤。我们将介绍过滤低质量内容、规范化文本表示、移除HTML标签和导航元素等不必要内容、识别和处理重复文档，以及分离目标语言文本的方法。最后，我们会探讨如何将这些操作组织成可扩展的数据处理流水线，以便处理非常大量的数据。

课程章节

7.1 质量筛选策略
7.2 文本标准化方法
7.3 处理冗余内容与标记删除
7.4 近似重复和精确重复检测
7.5 语种识别与过滤
7.6 构建可扩展的预处理流水线