趋近智
参数
6B
上下文长度
8K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
27 Oct 2023
训练数据截止日期
Jul 2023
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
2
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
28
FFN 中间层大小(稠密层)
13,696
多 Token 预测头数
-
分词器
词汇量大小
65,024
ChatGLM3-6B 是由智谱 AI 与清华大学知识工程实验室(KEG)联合研发的高级中英双语大语言模型。作为 ChatGLM 系列的第三代模型,它采用了经过改进的通用语言模型(GLM)架构,有效弥合了自编码(autoencoding)与自回归(autoregressive)目标之间的功能鸿沟。在预训练阶段,该模型利用了约 1 万亿 token 的多样化语料库,并针对数学、编程和逻辑推理等多个领域的对话连贯性及指令遵循能力进行了深度优化。
在技术架构上,该模型基于密集 Transformer 架构构建,并引入了多头注意力机制(Multi-Head Attention)和旋转位置嵌入(RoPE)以实现高效的序列处理。ChatGLM3 版本的一个重大突破是其对复杂智能体(Agent)工作流的原生支持,包括通过集成解释器实现的函数调用(function calling)和代码执行。这一功能得益于重新设计的提示词(Prompt)格式,该格式促进了结构化交互和多轮对话管理,使其非常适合部署在需要自主任务执行的场景中。
ChatGLM3-6B 专为本地和边缘部署而设计,在保持较低计算资源占用的同时,提供了相较于前代模型更出色的性能。它采用了 SwiGLU 激活函数和 RMSNorm 以确保训练的稳定性,并扩展了词表以支持高效的双语分词。该模型展现了极强的通用性,能够处理从标准问答到复杂的智能体行为等各类下游应用,且所有操作均在针对标准对话任务优化的上下文窗口内高效运行。
排名
#161
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1056 | 108 |
通用文本 Text Arena | 1055 | 110 |
APX AI
在线