趋近智
训练非常深层的神经网络 (neural network),例如前面讨论过的多层Transformer,带来独特的难题。影响训练稳定性和收敛速度的一个重要因素是模型权重 (weight)最初如何设置。不当的初始化会导致诸如梯度消失或梯度爆炸的问题,在此情况下,网络中传播的信号变得过小或过大,从而阻碍学习过程。
本章着重介绍旨在减轻这些问题的系统性权重初始化方法。我们将考察有助于在数据前向流动和梯度反向流动穿过深度网络时保持适当信号方差的已有技术。
你将学到:
掌握和运用这些技术对于成功训练大型语言模型所需的深层架构非常必要。
12.1 恰当初始化的重要性
12.2 Xavier(Glorot)初始化
12.3 Kaiming (何) 初始化
12.4 Transformer组件中的初始化
12.5 末尾层的小初始化