趋近智
参数
130B
上下文长度
2K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
4 Aug 2022
训练数据截止日期
Jul 2022
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
Deep Normalization
激活函数
GELU
维度
隐藏维度大小
12,288
层数
70
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
GLM-130B 是一个拥有 1300 亿参数的双向密集模型,专为中英文语言处理而开发。该模型采用通用语言模型(GLM)算法进行预训练,该算法利用了自回归空白填充目标。这种预训练方法涉及对随机连续文本跨度进行掩码,并随后以自回归方式预测这些被掩码的片段。这种方法论提升了它在各种自然语言处理任务中的性能,包括文本理解、生成和翻译。
GLM-130B 的架构设计融合了特定的创新,以增强这种规模模型的训练稳定性和推理效率。它利用旋转位置编码(RoPE)进行位置嵌入,并在其前馈网络(FFN)中集成了门控线性单元(GLU)和高斯误差线性单元(GeLU)激活函数。该模型还采用了 DeepNorm 进行层归一化,这是一种后层归一化(Post-LN)技术,已被证明能够稳定大规模语言模型的训练。
GLM-130B 支持快速推理,使其适用于实时大规模语言处理任务。它旨在实现在单台 A100 (40G * 8) 或 V100 (32G * 8) 服务器上进行推理。进一步的优化(如 INT4 量化)允许在更普及的硬件上进行高效推理,包括配备 4 块 RTX 3090 (24G) GPU 的单台服务器,且性能损耗极小。该模型在超过 4000 亿个文本标记(tokens)上进行了训练,其中中英文数据各占一半。
Z.ai 通用语言大模型
没有可用的 GLM-130B 评估基准。
APX AI
在线