ApX 标志ApX 标志

趋近智

GLM-4

参数

32B

上下文长度

128K

模态

Text

架构

Dense

许可证

Custom Commercial License with Restrictions

发布日期

15 Jan 2024

训练数据截止日期

Dec 2023

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

68.77 GB VRAM

消费级

4x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

128000 个令牌

77.10 GB VRAM

消费级

4x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 6.1k · Context: 128K · Vocab: 151.6kx 61 layersRMSNormPre-AttentionMulti-Head Attention48Q / 2KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 13.7k+Final RMSNormOutput Logits

评估基准

没有可用的 GLM-4 评估基准。

排名

排名

-

编程排名

-

关于 GLM-4

GLM-4 32B 模型是由 Z.ai 开发的基础大语言模型,代表了通用语言模型 (GLM) 架构向 320 亿参数规模的重大扩展。该模型旨在平衡高阶推理能力与计算效率,可作为高级智能体应用、复杂代码生成和精密双语文本处理的多功能核心。它在 GLM-4 系列中占据战略地位,既提供了深度语言理解所需的结构复杂度,又保持了适用于多种部署环境的资源占用。

在技术层面,该模型采用了稠密 Transformer 架构,并通过在 15 万亿 token 的海量语料库上进行广泛预训练而优化。该训练集包含高比例的合成推理数据,专门用于增强模型的逻辑推理和问题解决能力。其架构设计融合了旋转位置编码 (RoPE) 和分组查询注意力 (GQA) 等现代先进技术,共同保障了在高达 128,000 token 的上下文窗口内实现稳定的性能和高效的推理。为确保高质量的输出,模型经过了包含人类偏好对齐、拒绝采样和强化学习在内的多阶段后训练流水线。

GLM-4 32B 专门针对需要结构化输出和自主工具交互的场景进行了优化。其性能特性使其在工程级代码生成、精准的搜索问答以及详细技术产物的创建方面尤为出色。该模型精炼的指令遵循和强大的函数调用能力,使其能够作为智能体的主引擎,在多种软件环境和知识领域中规划并执行多步任务。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

48

键值头

2

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

6,144

层数

61

FFN 中间层大小(稠密层)

13,696

多 Token 预测头数

-

分词器

词汇量大小

151,552

模型完整性

总分

B-

62 / 100

关于 GLM Family

Z.ai 通用语言大模型


其他 GLM Family 模型
GLM-4:规格和 GPU 显存要求