趋近智
首页
博客
课程
大模型
中
所有课程
Transformer模型入门
章节 1: 序列建模与注意力机制基础
序列到序列任务的挑战
回顾:循环神经网络 (RNN)
传统循环神经网络方法的局限性
注意力机制原理介绍
注意力分数计算:一个宏观视角
来自注意力权重的上下文向量
章节 2: 自注意力与多头注意力
自注意力的原理
自注意力机制中的查询、键和值向量
缩放点积注意力机制
自注意力得分可视化
多头注意力简介
多头注意力机制如何运作
多头注意力机制的优势
动手实践:实现缩放点积注意力
章节 3: Transformer 编码器-解码器架构
整体架构概览
输入嵌入层
位置信息的必要性
位置编码说明
编码器层堆叠
加法与归一化层 (残差连接)
逐位置前馈网络
解码器堆栈
带掩码的多头自注意力
编码器-解码器注意力机制
最终线性层和Softmax
动手实践:构建编码器层
章节 4: Transformer模型的训练与实现
数据准备:分词
构建输入批次
序列任务的损失函数
优化策略
正则化方法
基本实现概述
使用预训练模型库(简述)
实践:组装一个基本Transformer
正则化方法
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
正则化方法(Dropout)