趋近智
参数
9B
上下文长度
1,000K
模态
Text
架构
Dense
许可证
MIT License
发布日期
30 Jun 2024
训练数据截止日期
Jan 2024
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
2
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
40
FFN 中间层大小(稠密层)
13,696
多 Token 预测头数
-
分词器
词汇量大小
151,552
GLM-4-9B-Chat-1M 是 GLM-4 系列中的一款专用大语言模型,由智谱 AI 开发,旨在应对超长序列处理的复杂挑战。该模型变体的显著特点是拥有 1,048,576 个 token 的海量上下文窗口,使其能够处理并推理整个技术文档库、法律合同或长达数小时的对话记录。作为一款针对聊天优化的模型,它经过微调,能够遵循复杂的指令并进行细腻的人机交互,同时支持网页浏览和代码执行等集成工具调用。
技术上,该模型采用了包含 40 层、隐藏层维度为 4096 的稠密 Transformer 架构。为了实现百万级别的上下文容量,它采用了先进的位置编码方案,将旋转位置嵌入 (RoPE) 与 YaRN (Yet another RoPE N) 扩展方法相结合。这种配置使模型能够在整个上下文窗口内保持极高的检索准确率,这一能力通常通过“大海捞针”(Needle-In-A-Haystack)评估得到验证。该架构还引入了 RMSNorm 以实现稳定的层归一化,并结合 SwiGLU 激活函数的门控线性单元 (GLU) 来优化前馈网络的表达能力。
运行灵活性是 GLM-4-9B-Chat-1M 的核心属性,其配套代码以 Apache 2.0 协议开源,权重则遵循宽松的社区许可证发布。它被设计为兼容 Hugging Face Transformers 库和 vLLM,便于在从本地研究工作站到生产推理服务器的各种环境中部署。该模型具备 26 种语言的多语言能力,使其成为需要深度语义理解和长文档综合处理的全球化应用中的多功能利器。
没有可用的 GLM-4-9B-Chat-1M 评估基准。
APX AI
在线