趋近智
活跃参数
744B
上下文长度
204.8K
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
MIT
发布日期
12 Feb 2026
训练数据截止日期
Dec 2025
注意力
注意力结构
Multi-Head Attention
注意力头
64
键值头
64
注意力头维度
64
位置嵌入
Absolute Position Embedding
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
6,144
层数
80
FFN 中间层大小(稠密层)
2,048
多 Token 预测头数
1
分词器
词汇量大小
154,880
混合专家
专家参数总数
40.0B
专家数量
256
活跃专家
8
共享专家数
1
FFN 中间层大小(每专家)
2,048
MoE 前的稠密层数
3
GLM-5 是由 Z.ai 开发的旗舰级多模态基础模型,专为复杂系统工程和长跨度智能体(agentic)工作流设计。该模型采用混合专家(MoE)架构,总参数量达 7440 亿,每个 token 的激活参数量约为 400 亿。这种设计在保持大规模部署所需的计算效率的同时,实现了高容量推理和专业知识检索。模型在包含 28.5 万亿 token 的海量语料库上进行训练,重点涵盖高质量代码、技术文档和推理密集型数据,旨在支持专业级软件开发和自主问题解决。
在技术层面,GLM-5 引入了多项架构创新,其中最显著的是集成了 DeepSeek 稀疏注意力(DSA)机制。该机制通过动态分配计算资源来优化标准注意力模块,显著降低了处理长序列时的显存和计算开销。此外,该模型在后期训练(post-training)中利用了名为“slime”的异步强化学习基础设施。该框架将生成过程与训练过程解耦以提高迭代吞吐量,使模型能够有效地从复杂的多步交互和动态环境中学习。
GLM-5 针对长上下文稳定性进行了优化,支持高达 204,800 个 token 的上下文窗口,并能在单次输出中生成多达 128,000 个 token。其功能涵盖高级工具调用、实时流式传输,以及跨前端、后端和数据处理任务的结构化输出。该模型在 MIT 许可证下开源权重,允许研究人员和开发人员进行本地部署、微调,并将其集成到各种智能体框架中,从而避免供应商锁定。
GLM 5 是由 Z.ai 开发的第五代通用语言模型。它标志着多模态基础能力的重大飞跃,在多种系统工程任务中具备先进的推理和长程智能体能力。
排名
#25
| 基准 | 分数 | 排名 |
|---|---|---|
0.55 | 11 | |
Web 开发 WebDev Arena | 1440 | ⭐ 11 |
0.68 | 16 | |
专业知识 MMLU Pro | 0.86 | 16 |
0.83 | 17 | |
StackUnseen ProLLM Stack Unseen | 0.551 | 21 |
0.74 | 26 | |
0.69 | 28 |
APX AI
在线