趋近智
大型语言模型 (LLM) 适应方法的基础概念包括预训练语言模型和Transformer架构。一个概述涵盖这些主要方面,侧重于与微调最相关的部分。熟悉深度学习、自然语言处理 (NLP) 和LLM的基础知识将会有所帮助。
现代大型语言模型(如GPT、Llama、Claude、BERT及其变体)的生命周期始于一个资源密集型的预训练阶段,而非针对特定任务。在此阶段,模型接触海量数据集,这些数据通常包含公共互联网文本和数字化书籍的大部分内容,可能达到数TB的数据量和数万亿个token。
预训练过程中的学习通常是自监督的。模型不依赖于人类为特定任务(如情感分析或翻译)生成的标签,而是从语言的内在结构中获取知识。常见的自监督目标包括:
通过这些目标,模型被要求学习语言中复杂的统计模式,包括语法、句法、词语间的语义关联、常识推理,甚至训练语料库中内含的一定程度的事实知识。此阶段的成果是一个基础模型,它具备广泛的语言理解和生成能力,但尚未专门用于任何特定下游应用。
这些预训练模型取得显著成果,与论文《Attention Is All You Need》中提出的Transformer架构紧密相关。这种架构摆脱了以往在序列建模中占主导地位的循环(RNN、LSTM)或卷积(CNN)方法。
Transformer的主要创新是自注意力机制。该机制使得模型在处理序列中特定位置的token时,能够动态地衡量序列中所有其他token(包括自身)的重要性,并从中获取信息。它为每个token计算查询 (Q)、键 (K) 和值 (V) 向量,并根据查询和键之间的兼容性计算注意力分数。这使得模型能够比早期架构更有效地捕获长距离依赖和上下文关联。
Transformer单块的简化视图(所示为解码器风格,编码器类似)。输入表示通过多头自注意力和逐位置前馈网络,每个子层之后应用残差连接和层归一化。
使Transformer适合大规模预训练的主要特性有:
多头注意力(并行运行多次具有不同学习投影的自注意力)、位置编码(注入token顺序信息)、层归一化和逐位置前馈网络等标准构成部分在堆叠的层中共同作用,以构建深度、功能强大的模型。
这些预训练的Transformer模型代表了一项重大学习进展,它们从网络规模数据中获得了大量的通用知识。然而,这种通用性也是它们在特定应用中的局限。它们的原始输出可能不够聚焦,在特定领域可能存在事实不符,或者不符合所需的格式或风格。这正是微调和适应方法变得不可或缺之处,它们使我们能够调整这些强大的基础模型以满足特定需求,这也是本课程的主旨内容。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造