使用开放许可数据集

这部分内容有帮助吗？

参考文献

The Pile: An 800GB Dataset of Diverse Text for Language Modeling, Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, Connor Leahy, 2020 arXiv preprint DOI: 10.48550/arXiv.2101.00027 - 介绍了The Pile数据集的构建、组成和特性，是LLM预训练的重要资源。
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu, 2020 JMLR, Vol. 21 DOI: 10.5555/3455716.3455823 - 描述了C4数据集的创建过程，作为T5模型研究的一部分，详细介绍了其从Common Crawl中清洗和过滤的步骤。
🤗 Datasets Documentation, Hugging Face, 2024 (Hugging Face) - 提供了datasets库的完整指南和API参考，对于高效访问和处理用于LLM的开放数据集至关重要。
Open Data Handbook - Licensing Open Data, Open Knowledge Foundation, 2010 (Open Knowledge Foundation) - 提供了关于理解和选择数据开放许可的实用指南，阐明了Creative Commons和Open Data Commons等术语。