所有课程

Transformer模型入门

章节 1: 序列建模与注意力机制基础

序列到序列任务的挑战

回顾：循环神经网络 (RNN)

传统循环神经网络方法的局限性

注意力机制原理介绍

注意力分数计算：一个宏观视角

来自注意力权重的上下文向量

第 1 章测验

章节 2: 自注意力与多头注意力

自注意力的原理

自注意力机制中的查询、键和值向量

缩放点积注意力机制

自注意力得分可视化

多头注意力简介

多头注意力机制如何运作

多头注意力机制的优势

动手实践：实现缩放点积注意力

第 2 章测验

章节 3: Transformer 编码器-解码器架构

整体架构概览

输入嵌入层

位置信息的必要性

位置编码说明

编码器层堆叠

加法与归一化层 (残差连接)

逐位置前馈网络

解码器堆栈

带掩码的多头自注意力

编码器-解码器注意力机制

最终线性层和Softmax

动手实践：构建编码器层

第 3 章测验

章节 4: Transformer模型的训练与实现

数据准备：分词

构建输入批次

序列任务的损失函数

正则化方法

基本实现概述

使用预训练模型库（简述）

实践：组装一个基本Transformer

第 4 章测验

使用预训练模型库（简述）

这部分内容有帮助吗？

参考文献

Hugging Face Transformers Library Documentation, Hugging Face team, 2024 - Hugging Face transformers库的官方及全面文档，对实际实现和理解其全部功能至关重要。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, 2018 Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), Vol. 1 DOI: 10.48550/arXiv.1810.04805 - 介绍了BERT模型，这是一种基础的预训练Transformer，彻底改变了自然语言处理，并展示了预训练和微调范式的强大功能，这正是使用模型库的核心。
Natural Language Processing with Transformers: Building Innovative Applications with 🤗 Transformers, Lewis, Leandro, Thomas, 2022 (O'Reilly Media) - 一本实用指南，讲解如何使用Hugging Face transformers库应用Transformer模型，涵盖各种任务、微调以及基本概念。

© 2025 ApX Machine Learning用心打造