ApX 标志ApX 标志

趋近智

GLM-4.6

活跃参数

357B

上下文长度

200K

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

30 Sept 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

96

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

5,120

层数

92

FFN 中间层大小(稠密层)

1,536

多 Token 预测头数

1

分词器

词汇量大小

151,552

混合专家

专家参数总数

32.0B

专家数量

160

活跃专家

8

共享专家数

1

FFN 中间层大小(每专家)

1,536

MoE 前的稠密层数

3

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 5.1k · Context: 200K · Vocab: 151.6kx 92 layersRMSNormPre-AttentionMulti-Head Attention96Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (8/160 experts)SwishIntermediate: 1.5k+Final RMSNormOutput Logits

GLM-4.6

GLM-4.6 是由 Z.ai 开发的大语言模型,旨在推动人工智能领域的高级应用。该模型经过精心设计,能够在一系列复杂任务中高效运行,包括高级编程、长上下文处理和智能体(Agent)操作。其支持中英双语的能力扩展了它在不同语言环境下的适用性。该模型旨在为构建具备细致推理和自主交互能力的智能系统提供稳健的基础。

在架构方面,GLM-4.6 采用了混合专家(MoE)配置,总参数量达 3570 亿,在单次前向传播中激活的参数量为 320 亿。模型设计的上下文窗口扩展至 200,000 个 token,使其能够在处理长输入序列时保持连贯性。其注意力机制的创新包括具有 96 个注意力头的分组查询注意力(GQA),以及用于位置编码的部分旋转位置嵌入(RoPE)。模型通过 QK-Norm 进行归一化管理,有助于稳定注意力 Logits。这些架构选择旨在平衡计算效率与复杂认知操作中的卓越性能。

GLM-4.6 的运行特性针对现实世界的开发工作流进行了优化。它展现了卓越的代码编写性能,能够生成视觉效果更精美的前端页面,并提升了实际应用效果。该模型表现出增强的推理能力,并在推理过程中通过集成的工具调用功能进一步得到强化。这有助于创建更强大的智能体,使其精通基于搜索的任务和角色扮演场景。此外,GLM-4.6 显著提高了 token 效率,与前代模型 GLM-4.5 相比,完成任务所需的 token 减少了约 15%,从而提供了更具成本效益的推理方案。

关于 GLM-4

GLM-4 是由智谱 AI(Zhipu AI)开发的一系列中英双语语言模型。该系列模型具备超长上下文窗口、卓越的代码性能、先进的推理能力以及强大的智能体(Agent)功能。GLM-4.6 在工具调用和搜索型智能体方面进行了进一步的优化提升。


其他 GLM-4 模型

评估基准

排名

#75

基准分数排名

0.81

21

研究生级问答

GPQA

0.81

22

专业知识

MMLU Pro

0.82

31

0.52

33

0.62

34

0.71

35

智能编程

LiveBench Agentic

0.35

38

通用文本

Text Arena

1426

41

Web 开发

WebDev Arena

1355

57

排名

排名

#75

编程排名

#75

模型完整性

总分

B

66 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
98k
195k

所需显存:

推荐 GPU