趋近智
大师班
大型语言模型的有效性与其训练所用的文本数据的规模和质量直接相关。获取足够大的数据集(通常以TB甚至PB为单位)是构建大语言模型的一个基础步骤,并带来其自身的一系列工程难题。
本章主要讲解获取和收集这些预训练所需大规模文本集合的实用方法。您将学习多种策略,其中包括:
在本章结束时,您将对获取开始构建大语言模型所需的原始文本数据所涉及的常用方法和挑战有清晰的认识。
6.1 确定潜在数据来源
6.2 使用 Common Crawl 数据
6.3 规模化网页抓取技术
6.4 使用开放许可数据集
6.5 数据获取的法律考量
© 2026 ApX Machine Learning用心打造