ApX 标志ApX 标志

趋近智

GLM-130B

参数

130B

上下文长度

2K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

4 Aug 2022

训练数据截止日期

Jul 2022

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

-

键值头

-

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

Deep Normalization

激活函数

GELU

维度

隐藏维度大小

12,288

层数

70

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 12.3k · Context: 2Kx 70 layersDeepNormPre-AttentionMulti-Head Attention+DeepNormPre-FFNFeed-Forward NetworkGELU+Final DeepNormOutput Logits

GLM-130B

GLM-130B 是一个拥有 1300 亿参数的双向密集模型,专为中英文语言处理而开发。该模型采用通用语言模型(GLM)算法进行预训练,该算法利用了自回归空白填充目标。这种预训练方法涉及对随机连续文本跨度进行掩码,并随后以自回归方式预测这些被掩码的片段。这种方法论提升了它在各种自然语言处理任务中的性能,包括文本理解、生成和翻译。

GLM-130B 的架构设计融合了特定的创新,以增强这种规模模型的训练稳定性和推理效率。它利用旋转位置编码(RoPE)进行位置嵌入,并在其前馈网络(FFN)中集成了门控线性单元(GLU)和高斯误差线性单元(GeLU)激活函数。该模型还采用了 DeepNorm 进行层归一化,这是一种后层归一化(Post-LN)技术,已被证明能够稳定大规模语言模型的训练。

GLM-130B 支持快速推理,使其适用于实时大规模语言处理任务。它旨在实现在单台 A100 (40G * 8) 或 V100 (32G * 8) 服务器上进行推理。进一步的优化(如 INT4 量化)允许在更普及的硬件上进行高效推理,包括配备 4 块 RTX 3090 (24G) GPU 的单台服务器,且性能损耗极小。该模型在超过 4000 亿个文本标记(tokens)上进行了训练,其中中英文数据各占一半。

关于 GLM Family

Z.ai 通用语言大模型


其他 GLM Family 模型

评估基准

没有可用的 GLM-130B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

72 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
1k
2k

所需显存:

推荐 GPU