确定潜在数据来源

这部分内容有帮助吗？

参考文献

Common Crawl: Open Datasets for Web-Scale Language Models, Common Crawl Foundation, 2025 - 介绍了该项目、数据格式以及如何访问构成许多大型语言模型数据集基础的海量网络爬取存档。
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu, 2020 Journal of Machine Learning Research, Vol. 21 DOI: 10.5555/3455716.3455823 - 介绍了C4数据集，这是广泛使用的、经过清洗的Common Crawl数据版本，作为大型语言模型预训练的基准。
The Pile: An 800GB Dataset of Diverse Text for Language Modeling, Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, Connor Leahy, 2020 arXiv preprint DOI: 10.48550/arXiv.2101.00027 - 描述了一个为训练大型语言模型而设计的大规模、多样化、高质量数据集，包含了本节中讨论的许多数据源。
Hugging Face Datasets Library Documentation, Hugging Face, 2024 - 使用datasets库访问、处理和共享机器学习数据集（包括许多大型语言模型预训练语料库）的官方指南。