趋近智
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
4
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
44
FFN 中间层大小(稠密层)
11,008
多 Token 预测头数
-
分词器
词汇量大小
64,000
Yi-9B 模型是由 01.AI 开发的一款先进的基于密集 Transformer 的大语言模型,旨在优化参数量与推理深度之间的平衡。它是基础模型 Yi-6B 的高性能扩展版,通过架构扩展和多阶段增量训练精心打造而成。通过增加模型深度并额外在 0.8 万亿个高质量 token 上进行持续预训练,开发团队打造出了这款在数学和代码生成等技术领域表现卓越,同时保持了稳健的中英双语流畅度的模型。
在技术架构上,Yi-9B 采用仅解码器(decoder-only)架构,与成熟的 Llama 框架保持一致,从而确保了与广泛的 LLM 工具和库生态系统的即时兼容性。其核心架构特性包括用于提高推理吞吐量并降低内存开销的分组查询注意力(GQA),以及在前馈层中用于增强表征能力的 SwiGLU 激活函数。该模型采用旋转位置编码(RoPE)来管理序列数据,并利用均方根层归一化(RMSNorm)来稳定其 44 层架构中的训练动态。
Yi-9B 专为计算效率而设计,特别适合在资源受限的环境(包括消费级硬件)中部署。其在总计 3.9 万亿个 token 上的广泛训练为模型提供了坚实的知识库,使其能够胜任复杂推理、阅读理解和常识逻辑任务。对于需要兼顾高性能技术推理和高效本地运行的 AI 原生应用开发者而言,Yi-9B 是一个理想的选择。
没有可用的 Yi-9B 评估基准。
APX AI
在线