ApX 标志ApX 标志

趋近智

ChatGLM2-6B

参数

6B

上下文长度

32.768K

模态

Text

架构

Dense

许可证

Custom License (ChatGLM2-6B License)

发布日期

25 Jun 2023

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

2

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

28

FFN 中间层大小(稠密层)

13,696

多 Token 预测头数

-

分词器

词汇量大小

65,024

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 32.8k · Vocab: 65kx 28 layersRMSNormPre-AttentionMulti-Head Attention32Q / 2KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 13.7k+Final RMSNormOutput Logits

ChatGLM2-6B

ChatGLM2-6B 是一款旨在促进中英双语对话交互的大型语言模型。作为由清华大学知识工程实验室(THUDM)开发的 ChatGLM 系列的第二代迭代产品,它基于通用语言模型(GLM)架构构建,是一款用于对话生成和跨语言文本处理的多功能工具。该模型通过高效的架构设计,针对消费级硬件上的执行进行了优化,为在硬件受限环境下工作的开发者和研究人员提供了极高的可访问性。

其架构采用了稠密 Transformer 结构,并在其前代产品的基础上融入了多项技术进步。其中一项关键创新是采用了多查询注意力(MQA)机制,通过在多个查询头(Query Heads)之间共享键(Key)和值(Value)头来简化推理过程,从而显著减少了 KV 缓存的显存占用。此外,该模型集成了旋转位置编码(RoPE)以捕捉 Token 间的关系,并利用 RMSNorm 提高了训练稳定性。在预训练阶段引入的 FlashAttention 技术使该架构能够支持极长的上下文窗口,从而便于处理长对话历史。

ChatGLM2-6B 拥有 60 亿参数,在性能和效率之间取得了平衡。它在包含 1.4 万亿 Token 的多样化数据集上进行了预训练,并经过人类偏好对齐(RLHF)微调,以提升其对话质量。该模型特别适用于智能虚拟助手和本地化聊天机器人等应用场景,在这些场景中,低延迟推理和双语能力是核心需求。其开源权重特性以及对 INT4 量化的支持,进一步扩展了其在本地部署及集成到专门 NLP 流水线中的实用性。

关于 ChatGLM

来自 Z.ai 的 ChatGLM 系列模型,基于 GLM 架构。


其他 ChatGLM 模型

评估基准

排名

#156

基准分数排名

Web 开发

WebDev Arena

1024

91

排名

排名

#156

编程排名

#123

模型完整性

总分

B-

62 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU