ApX 标志ApX 标志

趋近智

GLM-4-9B-Chat-1M

参数

9B

上下文长度

1,000K

模态

Text

架构

Dense

许可证

MIT License

发布日期

30 Jun 2024

训练数据截止日期

Jan 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

2

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

40

FFN 中间层大小(稠密层)

13,696

多 Token 预测头数

-

分词器

词汇量大小

151,552

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 1,000k · Vocab: 151.6kx 40 layersRMSNormPre-AttentionMulti-Head Attention32Q / 2KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 13.7k+Final RMSNormOutput Logits

GLM-4-9B-Chat-1M

GLM-4-9B-Chat-1M 是 GLM-4 系列中的一款专用大语言模型,由智谱 AI 开发,旨在应对超长序列处理的复杂挑战。该模型变体的显著特点是拥有 1,048,576 个 token 的海量上下文窗口,使其能够处理并推理整个技术文档库、法律合同或长达数小时的对话记录。作为一款针对聊天优化的模型,它经过微调,能够遵循复杂的指令并进行细腻的人机交互,同时支持网页浏览和代码执行等集成工具调用。

技术上,该模型采用了包含 40 层、隐藏层维度为 4096 的稠密 Transformer 架构。为了实现百万级别的上下文容量,它采用了先进的位置编码方案,将旋转位置嵌入 (RoPE) 与 YaRN (Yet another RoPE N) 扩展方法相结合。这种配置使模型能够在整个上下文窗口内保持极高的检索准确率,这一能力通常通过“大海捞针”(Needle-In-A-Haystack)评估得到验证。该架构还引入了 RMSNorm 以实现稳定的层归一化,并结合 SwiGLU 激活函数的门控线性单元 (GLU) 来优化前馈网络的表达能力。

运行灵活性是 GLM-4-9B-Chat-1M 的核心属性,其配套代码以 Apache 2.0 协议开源,权重则遵循宽松的社区许可证发布。它被设计为兼容 Hugging Face Transformers 库和 vLLM,便于在从本地研究工作站到生产推理服务器的各种环境中部署。该模型具备 26 种语言的多语言能力,使其成为需要深度语义理解和长文档综合处理的全球化应用中的多功能利器。

关于 GLM Family

Z.ai 通用语言大模型


其他 GLM Family 模型

评估基准

没有可用的 GLM-4-9B-Chat-1M 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B-

63 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
488k
977k

所需显存:

推荐 GPU