趋近智
参数
6B
上下文长度
32.768K
模态
Text
架构
Dense
许可证
Custom License (ChatGLM2-6B License)
发布日期
25 Jun 2023
训练数据截止日期
-
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
2
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
28
FFN 中间层大小(稠密层)
13,696
多 Token 预测头数
-
分词器
词汇量大小
65,024
ChatGLM2-6B 是一款旨在促进中英双语对话交互的大型语言模型。作为由清华大学知识工程实验室(THUDM)开发的 ChatGLM 系列的第二代迭代产品,它基于通用语言模型(GLM)架构构建,是一款用于对话生成和跨语言文本处理的多功能工具。该模型通过高效的架构设计,针对消费级硬件上的执行进行了优化,为在硬件受限环境下工作的开发者和研究人员提供了极高的可访问性。
其架构采用了稠密 Transformer 结构,并在其前代产品的基础上融入了多项技术进步。其中一项关键创新是采用了多查询注意力(MQA)机制,通过在多个查询头(Query Heads)之间共享键(Key)和值(Value)头来简化推理过程,从而显著减少了 KV 缓存的显存占用。此外,该模型集成了旋转位置编码(RoPE)以捕捉 Token 间的关系,并利用 RMSNorm 提高了训练稳定性。在预训练阶段引入的 FlashAttention 技术使该架构能够支持极长的上下文窗口,从而便于处理长对话历史。
ChatGLM2-6B 拥有 60 亿参数,在性能和效率之间取得了平衡。它在包含 1.4 万亿 Token 的多样化数据集上进行了预训练,并经过人类偏好对齐(RLHF)微调,以提升其对话质量。该模型特别适用于智能虚拟助手和本地化聊天机器人等应用场景,在这些场景中,低延迟推理和双语能力是核心需求。其开源权重特性以及对 INT4 量化的支持,进一步扩展了其在本地部署及集成到专门 NLP 流水线中的实用性。
排名
#156
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1024 | 91 |
APX AI
在线