ApX 标志ApX 标志

趋近智

Yi-9B

参数

9B

上下文长度

4.096K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

6 Mar 2024

训练数据截止日期

Jun 2023

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

4

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

44

FFN 中间层大小(稠密层)

11,008

多 Token 预测头数

-

分词器

词汇量大小

64,000

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 4.1k · Vocab: 64kx 44 layersRMSNormPre-AttentionMulti-Head Attention32Q / 4KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 11k+Final RMSNormOutput Logits

Yi-9B

Yi-9B 模型是由 01.AI 开发的一款先进的基于密集 Transformer 的大语言模型,旨在优化参数量与推理深度之间的平衡。它是基础模型 Yi-6B 的高性能扩展版,通过架构扩展和多阶段增量训练精心打造而成。通过增加模型深度并额外在 0.8 万亿个高质量 token 上进行持续预训练,开发团队打造出了这款在数学和代码生成等技术领域表现卓越,同时保持了稳健的中英双语流畅度的模型。

在技术架构上,Yi-9B 采用仅解码器(decoder-only)架构,与成熟的 Llama 框架保持一致,从而确保了与广泛的 LLM 工具和库生态系统的即时兼容性。其核心架构特性包括用于提高推理吞吐量并降低内存开销的分组查询注意力(GQA),以及在前馈层中用于增强表征能力的 SwiGLU 激活函数。该模型采用旋转位置编码(RoPE)来管理序列数据,并利用均方根层归一化(RMSNorm)来稳定其 44 层架构中的训练动态。

Yi-9B 专为计算效率而设计,特别适合在资源受限的环境(包括消费级硬件)中部署。其在总计 3.9 万亿个 token 上的广泛训练为模型提供了坚实的知识库,使其能够胜任复杂推理、阅读理解和常识逻辑任务。对于需要兼顾高性能技术推理和高效本地运行的 AI 原生应用开发者而言,Yi-9B 是一个理想的选择。

关于 Yi

Yi 系列模型是由零一万物(01.AI)从零开始训练的大语言模型。该系列支持中英双语,在语言理解、推理和代码生成方面表现出色。


其他 Yi 模型

评估基准

没有可用的 Yi-9B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

65 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
2k
4k

所需显存:

推荐 GPU

Yi-9B:规格和 GPU 显存要求