趋近智
注意力
注意力结构
Multi-Head Attention
注意力头
56
键值头
8
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
5,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
7,168
层数
60
FFN 中间层大小(稠密层)
20,480
多 Token 预测头数
-
分词器
词汇量大小
64,000
Yi-34B 模型由零一万物(01.AI)开发,是一款拥有 340 亿参数的大型语言模型,在包含 3 万亿 token 的多语言语料库上从零开始训练而成。该基座模型在语言理解、常识推理和阅读理解方面展现出强大的能力。它专为支持中英双语而设计,在各种任务中均能提供稳健的双语能力。该模型的设计重点在于实现高性能与高效推理之间的平衡,使其适用于多种计算环境。
在架构方面,Yi-34B 基于改进的仅解码器(decoder-only)Transformer 框架构建,灵感源自 LLaMA 实现,但并非其直接衍生产品。其核心技术特征是引入了分组查询注意力(GQA),与传统的全多头注意力(Multi-Head Attention)相比,在保持性能的同时降低了训练和推理成本。该模型采用了 SwiGLU 激活函数和 RMS 归一化层。位置编码通过旋转位置嵌入(RoPE)机制处理。这些架构选择旨在优化模型的稳定性、收敛性以及在 AI 生态系统中的兼容性。
Yi-34B 适用于需要大规模语言处理的任务,例如长篇文档摘要、详细的法律和技术文档分析以及复杂的双语问答系统。它在多语言内容生成和指令遵循方面也表现出色。基座模型支持 4,096 token 的上下文长度,而 Yi-34B-200K 等特定变体将此容量扩展至 200,000 token,从而能够处理极长的文本序列。其设计考量使其支持在多种硬件配置上部署,包括消费级 GPU(尤其是在采用量化技术的情况下)。
排名
#154
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1183 | 101 |
通用文本 Text Arena | 1183 | 102 |
APX AI
在线