Scaling Laws for Neural Language Models, Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei, 2020arXiv preprint arXiv:2001.08361DOI: 10.48550/arXiv.2001.08361 - 这篇基础论文通过实证研究模型性能如何随模型大小、数据集大小和训练计算量而扩展,为平衡深度和宽度提供了直接相关的见解。