大型语言模型的有效性与其训练所用的文本数据的规模和质量直接相关。获取足够大的数据集(通常以TB甚至PB为单位)是构建大语言模型的一个基础步骤,并带来其自身的一系列工程难题。本章主要讲解获取和收集这些预训练所需大规模文本集合的实用方法。您将学习多种策略,其中包括:识别网络爬取数据、书籍和代码库等潜在来源。访问和处理大规模网络档案(特别是Common Crawl)的方法。实施高效且负责任的网络抓取实践。寻找并使用现有开放许可的文本语料库。理解与数据收集相关的必要法律和伦理考量。在本章结束时,您将对获取开始构建大语言模型所需的原始文本数据所涉及的常用方法和挑战有清晰的认识。