ApX 标志ApX 标志

趋近智

Yi-6B

参数

6B

上下文长度

4.096K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

2 Nov 2023

训练数据截止日期

Jun 2023

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

4

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

5,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

11,008

多 Token 预测头数

-

分词器

词汇量大小

64,000

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 4.1k · Vocab: 64kx 32 layersRMSNormPre-AttentionMulti-Head Attention32Q / 4KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 11k+Final RMSNormOutput Logits

Yi-6B

Yi-6B 模型由零一万物(01.AI)开发,是一款拥有 60 亿参数的大语言模型,旨在实现高效且易用的语言处理任务。作为 Yi 系列模型的核心成员,它在提供卓越性能的同时保持了较低的资源需求,使其适用于个人和学术应用场景。该模型以其卓越的双语能力著称,在高达 3 万亿 token 的海量多语言语料库上进行训练,使其在英文和中文的理解与生成方面均表现出色。

在架构上,Yi-6B 基于密集 Transformer 框架构建。其注意力机制采用了分组查询注意力(GQA),这一优化同时应用于 Yi 系列的 6B 和 34B 模型。与传统的全多头注意力(MHA)相比,该方法在不损害小型模型性能的前提下,有效降低了训练和推理成本。模型采用 SwiGLU 作为激活函数,并使用 RMSNorm 进行归一化,在架构上与 Llama 等模型具有相似性。其位置嵌入采用了旋转位置嵌入(RoPE)方案,有助于实现有效的上下文管理。Yi-6B 模型的隐藏层维度为 4096,包含 32 层,并使用了 32 个注意力查询头(query heads)以及 4 个键值头(key-value heads)。

Yi-6B 模型旨在各种自然语言处理任务中提供稳健的性能,包括语言理解、常识推理和阅读理解。其高效的设计以及在 Apache 2.0 协议下的开源发布,使其能够广泛应用于从实时应用的快速原型设计到特定领域的微调等多种场景。该模型的默认上下文窗口为 4,096 个 token,并提供可扩展至 200,000 个 token 的变体,以处理更长文本的输入。

关于 Yi

Yi 系列模型是由零一万物(01.AI)从零开始训练的大语言模型。该系列支持中英双语,在语言理解、推理和代码生成方面表现出色。


其他 Yi 模型

评估基准

没有可用的 Yi-6B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

C+

60 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
2k
4k

所需显存:

推荐 GPU