趋近智
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
4
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
5,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
11,008
多 Token 预测头数
-
分词器
词汇量大小
64,000
Yi-6B 模型由零一万物(01.AI)开发,是一款拥有 60 亿参数的大语言模型,旨在实现高效且易用的语言处理任务。作为 Yi 系列模型的核心成员,它在提供卓越性能的同时保持了较低的资源需求,使其适用于个人和学术应用场景。该模型以其卓越的双语能力著称,在高达 3 万亿 token 的海量多语言语料库上进行训练,使其在英文和中文的理解与生成方面均表现出色。
在架构上,Yi-6B 基于密集 Transformer 框架构建。其注意力机制采用了分组查询注意力(GQA),这一优化同时应用于 Yi 系列的 6B 和 34B 模型。与传统的全多头注意力(MHA)相比,该方法在不损害小型模型性能的前提下,有效降低了训练和推理成本。模型采用 SwiGLU 作为激活函数,并使用 RMSNorm 进行归一化,在架构上与 Llama 等模型具有相似性。其位置嵌入采用了旋转位置嵌入(RoPE)方案,有助于实现有效的上下文管理。Yi-6B 模型的隐藏层维度为 4096,包含 32 层,并使用了 32 个注意力查询头(query heads)以及 4 个键值头(key-value heads)。
Yi-6B 模型旨在各种自然语言处理任务中提供稳健的性能,包括语言理解、常识推理和阅读理解。其高效的设计以及在 Apache 2.0 协议下的开源发布,使其能够广泛应用于从实时应用的快速原型设计到特定领域的微调等多种场景。该模型的默认上下文窗口为 4,096 个 token,并提供可扩展至 200,000 个 token 的变体,以处理更长文本的输入。
没有可用的 Yi-6B 评估基准。
APX AI
在线