趋近智
活跃参数
106B
上下文长度
128K
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
MIT License
发布日期
28 Jul 2025
训练数据截止日期
Mar 2025
注意力
注意力结构
Multi-Head Attention
注意力头
96
键值头
8
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
4,096
层数
46
FFN 中间层大小(稠密层)
1,408
多 Token 预测头数
1
分词器
词汇量大小
151,552
混合专家
专家参数总数
12.0B
专家数量
129
活跃专家
9
共享专家数
1
FFN 中间层大小(每专家)
1,408
MoE 前的稠密层数
1
GLM-4.5-Air 是由 Z.ai 开发的高效能大语言模型,属于 GLM-4.5 系列。其设计旨在弥合超大规模基座模型与端侧或中端云端部署的实际限制之间的差距。该模型主要针对面向智能体(Agent)的工作流进行了优化,优先提升了推理、复杂指令遵循和代码生成能力。它可作为自主智能体的多功能引擎,具备多步规划和工具调用能力,是开发者构建复杂数字助手和自动化软件工程流水线的理想选择。
在架构上,该模型采用了稀疏混合专家(MoE)框架,拥有 1,060 亿总参数量,而每次前向传播仅激活 120 亿参数。该设计包含 128 个路由专家和一个专门的共享专家层,每个 Token 激活 9 个专家,在保持表征能力的同时显著降低了计算开销。Transformer 模块通过多 Token 预测(MTP)层进一步增强,使模型能够同时预测多个未来的 Token。这种实现方式支持投机解码(Speculative Decoding),从而提高了推理吞吐量,并为实时交互应用提供更敏捷的响应体验。
GLM-4.5-Air 的技术创新包括采用具有 96 个注意力头和 8 个键值组的分组查询注意力(GQA)技术,降低了长上下文处理期间的内存带宽需求。该模型通过旋转位置嵌入(RoPE)支持 128,000 Token 的上下文窗口,并配备了混合推理系统。该系统包含“慢思考”模式(执行用于分析性问题解决的隐性思维链过程)和用于即时输出的“标准”模式。对函数调用、网页浏览和代码执行的原生集成,确保了模型能够以高可靠性与外部环境进行交互。
Z.ai 通用语言大模型
排名
#110
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1372 | 49 |
专业知识 MMLU Pro | 0.81 | 58 |
通用文本 Text Arena | 1373 | 64 |
APX AI
在线