趋近智
活跃参数
176B
上下文长度
66K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
10 Apr 2024
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
48
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
1,024
层数
56
FFN 中间层大小(稠密层)
16,384
多 Token 预测头数
-
分词器
词汇量大小
32,000
混合专家
专家参数总数
22.0B
专家数量
8
活跃专家
2
共享专家数
-
FFN 中间层大小(每专家)
16,384
MoE 前的稠密层数
-
Mixtral-8x22B-v0.1 是由 Mistral AI 开发的大型语言模型,其特点是采用了稀疏混合专家(SMoE)架构。这种设计方法使模型能够高效地处理广泛的自然语言处理任务,包括文本生成和理解。该模型的架构旨在平衡计算需求与高性能,使其适用于需要强大语言理解能力的应用程序。
Mixtral-8x22B-v0.1 架构的核心包含一个由八个专业神经网络专家组成的系统,每个专家都为模型的整体处理能力做出贡献。虽然该模型总共包含 1,760 亿个参数,但其稀疏激活机制确保了对于任何给定的输入标记,仅有两个专家处于激活状态。这种选择性激活使得活动参数量约为 390 亿个,与同等总规模的密集激活模型相比,显著降低了推理过程中的计算负载。该模型基于仅解码器(decoder-only)的 Transformer 框架运行,并利用稀疏激活模式来优化性能。
Mixtral-8x22B-v0.1 在多个领域展现了卓越的能力,包括多语言理解、数学问题解答和代码生成。它精通英语、法语、意大利语、德语和西班牙语。此外,它还结合了原生函数调用(function calling)能力,增强了其在集成应用环境中的实用性。这些特性使其成为开发聊天机器人、内容创作、文档摘要以及受益于其处理长上下文窗口能力的复杂问答系统的强大工具。
Mixtral 模型系列由 Mistral AI 开发,采用了稀疏混合专家 (SMoE) 架构。该设计在每一层中利用多个专家网络,通过路由器选择其中的一个子集来处理每个词元 (token)。这使得模型在每次前向传播仅激活一小部分参数的情况下,既能拥有庞大的总参数量,又能保持出色的计算效率。
排名
#150
| 基准 | 分数 | 排名 |
|---|---|---|
0.587 | 26 | |
通用文本 Text Arena | 1228 | 95 |
APX AI
在线