原始文本数据,特别是来自网络爬取这样的大型数据源,在有效用于训练大型语言模型之前,需要大幅整理。本章讲述清洗和整理这些数据集所涉及的实际操作步骤。我们将介绍过滤低质量内容、规范化文本表示、移除HTML标签和导航元素等不必要内容、识别和处理重复文档,以及分离目标语言文本的方法。最后,我们会探讨如何将这些操作组织成可扩展的数据处理流水线,以便处理非常大量的数据。