趋近智
参数
32B
上下文长度
128K
模态
Text
架构
Dense
许可证
Custom Commercial License with Restrictions
发布日期
15 Jan 2024
训练数据截止日期
Dec 2023
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
4x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
128000 个令牌
消费级
4x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
没有可用的 GLM-4 评估基准。
排名
-
编程排名
-
GLM-4 32B 模型是由 Z.ai 开发的基础大语言模型,代表了通用语言模型 (GLM) 架构向 320 亿参数规模的重大扩展。该模型旨在平衡高阶推理能力与计算效率,可作为高级智能体应用、复杂代码生成和精密双语文本处理的多功能核心。它在 GLM-4 系列中占据战略地位,既提供了深度语言理解所需的结构复杂度,又保持了适用于多种部署环境的资源占用。
在技术层面,该模型采用了稠密 Transformer 架构,并通过在 15 万亿 token 的海量语料库上进行广泛预训练而优化。该训练集包含高比例的合成推理数据,专门用于增强模型的逻辑推理和问题解决能力。其架构设计融合了旋转位置编码 (RoPE) 和分组查询注意力 (GQA) 等现代先进技术,共同保障了在高达 128,000 token 的上下文窗口内实现稳定的性能和高效的推理。为确保高质量的输出,模型经过了包含人类偏好对齐、拒绝采样和强化学习在内的多阶段后训练流水线。
GLM-4 32B 专门针对需要结构化输出和自主工具交互的场景进行了优化。其性能特性使其在工程级代码生成、精准的搜索问答以及详细技术产物的创建方面尤为出色。该模型精炼的指令遵循和强大的函数调用能力,使其能够作为智能体的主引擎,在多种软件环境和知识领域中规划并执行多步任务。
注意力
注意力结构
Multi-Head Attention
注意力头
48
键值头
2
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
6,144
层数
61
FFN 中间层大小(稠密层)
13,696
多 Token 预测头数
-
分词器
词汇量大小
151,552
Z.ai 通用语言大模型
APX AI
在线