趋近智
参数
6B
上下文长度
32.768K
模态
Text
架构
Dense
许可证
ChatGLM3-6B Model License
发布日期
27 Oct 2023
训练数据截止日期
-
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
2
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
28
FFN 中间层大小(稠密层)
13,696
多 Token 预测头数
-
分词器
词汇量大小
65,024
ChatGLM3-6B-32K 是一款先进的大语言模型,专门针对长上下文的理解与生成进行了优化。该模型由智谱 AI 与清华大学 KEG 实验室联合开发,是 ChatGLM3-6B 架构的一个专门变体,经过特殊设计将有效上下文窗口扩展至 32,768 个 token。这一扩展使其能够处理长篇文档、长对话以及超出标准 Transformer 模型限制的复杂技术文本。
该模型的架构基于 28 层稠密 Transformer 框架。它融入了多项技术改进,以在扩展的上下文中保持稳定性和性能,包括使用 RMSNorm 进行归一化,以及采用多查询注意力(MQA)机制来优化推理效率。该变体的一个重要创新是更新了旋转位置嵌入(RoPE)机制,通过修改基频(rope_ratio)来确保在 32K token 范围内实现精确的位置分辨率。此外,该模型在对话阶段采用专门的训练方法,重点提升了长文本的连贯性。
ChatGLM3-6B-32K 旨在实现技术通用性,原生支持通过函数调用(function calling)进行工具调用、通过内置代码解释器执行代码,以及处理复杂的智能体(agent)任务。这些特性使其非常适合构建能够进行深度文本分析和多步推理的高级 AI 智能体。该模型的权重对学术研究开放,并在完成正式登记后可免费进行商业使用,体现了对推动普及高性能自然语言处理技术的承诺。
没有可用的 ChatGLM3-6B-32K 评估基准。
APX AI
在线