Scaling Laws for Neural Language Models, Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei, 2020arXiv preprint arXiv:2001.08361DOI: 10.48550/arXiv.2001.08361 - 这篇论文通过实证方法确立了模型性能、模型规模、数据集大小与计算资源之间的关系。它阐明了训练数据量如何影响模型能力。
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu, 2020Journal of Machine Learning Research, Vol. 21 - 这篇论文介绍了T5模型和C4数据集,一个广泛使用的、源自Common Crawl的公共数据集。它提供了一个准备LLM训练数据时,数据集规模和整理工作的实例。