趋近智
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
32
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
No
滑动窗口大小
-
归一化
Layer Normalization
激活函数
GELU
维度
隐藏维度大小
4,096
层数
28
FFN 中间层大小(稠密层)
16,384
多 Token 预测头数
-
分词器
词汇量大小
130,528
ChatGLM-6B 是由清华大学 KEG 实验室和智谱 AI 共同开发的开源双语(中英)对话语言模型。它基于通用语言模型(GLM)架构构建。该模型的主要目标是辅助对话式人工智能任务,并针对中文问答和对话进行了专门优化。ChatGLM-6B 的一个核心设计考量是其在消费级硬件上本地部署的便捷性,在使用 INT4 量化时,仅需 6GB 显存即可运行。
该模型采用基于 Transformer 的架构,其基础设计源自 GLM 框架。在预训练阶段,ChatGLM-6B 采用了混合目标函数。其训练过程涉及约 1 万亿个 token 的大规模中英文语料库。此外,开发过程整合了监督微调、反馈自助以及基于人类反馈的强化学习(RLHF)等先进技术,以使模型输出符合人类偏好。底层的 GLM 架构支持二维位置编码方案。
尽管其 62 亿参数的规模相对较小,但 ChatGLM-6B 在生成连贯且上下文相关的回答方面展现了出色的能力。其架构强调计算效率,允许在常见的 GPU 配置上进行部署和推理,从而为研究人员和开发者提供了更广泛的应用空间。该模型适用于一系列自然语言处理任务,包括但不限于机器翻译、通用问答系统以及交互式聊天机器人应用的构建,尤其是在涉及中英双语的语境下。
排名
#157
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 995 | 92 |
APX AI
在线