ApX 标志ApX 标志

趋近智

ChatGLM3-6B

参数

6B

上下文长度

8K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

27 Oct 2023

训练数据截止日期

Jul 2023

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

2

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

28

FFN 中间层大小(稠密层)

13,696

多 Token 预测头数

-

分词器

词汇量大小

65,024

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 8K · Vocab: 65kx 28 layersRMSNormPre-AttentionMulti-Head Attention32Q / 2KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 13.7k+Final RMSNormOutput Logits

ChatGLM3-6B

ChatGLM3-6B 是由智谱 AI 与清华大学知识工程实验室(KEG)联合研发的高级中英双语大语言模型。作为 ChatGLM 系列的第三代模型,它采用了经过改进的通用语言模型(GLM)架构,有效弥合了自编码(autoencoding)与自回归(autoregressive)目标之间的功能鸿沟。在预训练阶段,该模型利用了约 1 万亿 token 的多样化语料库,并针对数学、编程和逻辑推理等多个领域的对话连贯性及指令遵循能力进行了深度优化。

在技术架构上,该模型基于密集 Transformer 架构构建,并引入了多头注意力机制(Multi-Head Attention)和旋转位置嵌入(RoPE)以实现高效的序列处理。ChatGLM3 版本的一个重大突破是其对复杂智能体(Agent)工作流的原生支持,包括通过集成解释器实现的函数调用(function calling)和代码执行。这一功能得益于重新设计的提示词(Prompt)格式,该格式促进了结构化交互和多轮对话管理,使其非常适合部署在需要自主任务执行的场景中。

ChatGLM3-6B 专为本地和边缘部署而设计,在保持较低计算资源占用的同时,提供了相较于前代模型更出色的性能。它采用了 SwiGLU 激活函数和 RMSNorm 以确保训练的稳定性,并扩展了词表以支持高效的双语分词。该模型展现了极强的通用性,能够处理从标准问答到复杂的智能体行为等各类下游应用,且所有操作均在针对标准对话任务优化的上下文窗口内高效运行。

关于 ChatGLM

来自 Z.ai 的 ChatGLM 系列模型,基于 GLM 架构。


其他 ChatGLM 模型

评估基准

排名

#161

基准分数排名

Web 开发

WebDev Arena

1056

108

通用文本

Text Arena

1055

110

排名

排名

#161

编程排名

#134

模型完整性

总分

B

64 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU