ApX 标志ApX 标志

趋近智

Yi-34B

参数

34B

上下文长度

4K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

2 Nov 2023

训练数据截止日期

Jun 2023

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

56

键值头

8

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

5,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

7,168

层数

60

FFN 中间层大小(稠密层)

20,480

多 Token 预测头数

-

分词器

词汇量大小

64,000

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 7.2k · Context: 4K · Vocab: 64kx 60 layersRMSNormPre-AttentionMulti-Head Attention56Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 20.5k+Final RMSNormOutput Logits

Yi-34B

Yi-34B 模型由零一万物(01.AI)开发,是一款拥有 340 亿参数的大型语言模型,在包含 3 万亿 token 的多语言语料库上从零开始训练而成。该基座模型在语言理解、常识推理和阅读理解方面展现出强大的能力。它专为支持中英双语而设计,在各种任务中均能提供稳健的双语能力。该模型的设计重点在于实现高性能与高效推理之间的平衡,使其适用于多种计算环境。

在架构方面,Yi-34B 基于改进的仅解码器(decoder-only)Transformer 框架构建,灵感源自 LLaMA 实现,但并非其直接衍生产品。其核心技术特征是引入了分组查询注意力(GQA),与传统的全多头注意力(Multi-Head Attention)相比,在保持性能的同时降低了训练和推理成本。该模型采用了 SwiGLU 激活函数和 RMS 归一化层。位置编码通过旋转位置嵌入(RoPE)机制处理。这些架构选择旨在优化模型的稳定性、收敛性以及在 AI 生态系统中的兼容性。

Yi-34B 适用于需要大规模语言处理的任务,例如长篇文档摘要、详细的法律和技术文档分析以及复杂的双语问答系统。它在多语言内容生成和指令遵循方面也表现出色。基座模型支持 4,096 token 的上下文长度,而 Yi-34B-200K 等特定变体将此容量扩展至 200,000 token,从而能够处理极长的文本序列。其设计考量使其支持在多种硬件配置上部署,包括消费级 GPU(尤其是在采用量化技术的情况下)。

关于 Yi

Yi 系列模型是由零一万物(01.AI)从零开始训练的大语言模型。该系列支持中英双语,在语言理解、推理和代码生成方面表现出色。


其他 Yi 模型

评估基准

排名

#154

基准分数排名

Web 开发

WebDev Arena

1183

101

通用文本

Text Arena

1183

102

排名

排名

#154

编程排名

#119

模型完整性

总分

C+

57 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
2k
4k

所需显存:

推荐 GPU

Yi-34B:规格和 GPU 显存要求