ApX 标志ApX 标志

趋近智

Mixtral-8x22B-v0.1

活跃参数

176B

上下文长度

66K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

10 Apr 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

48

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

1,024

层数

56

FFN 中间层大小(稠密层)

16,384

多 Token 预测头数

-

分词器

词汇量大小

32,000

混合专家

专家参数总数

22.0B

专家数量

8

活跃专家

2

共享专家数

-

FFN 中间层大小(每专家)

16,384

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 1k · Context: 66K · Vocab: 32kx 56 layersRMSNormPre-AttentionGrouped-Query Attention48Q / 8KV headsHead dim: 21+RMSNormPre-FFNSparse MoE FFN (2/8 experts)SwiGLUIntermediate: 16.4k+Final RMSNormOutput Logits

Mixtral-8x22B-v0.1

Mixtral-8x22B-v0.1 是由 Mistral AI 开发的大型语言模型,其特点是采用了稀疏混合专家(SMoE)架构。这种设计方法使模型能够高效地处理广泛的自然语言处理任务,包括文本生成和理解。该模型的架构旨在平衡计算需求与高性能,使其适用于需要强大语言理解能力的应用程序。

Mixtral-8x22B-v0.1 架构的核心包含一个由八个专业神经网络专家组成的系统,每个专家都为模型的整体处理能力做出贡献。虽然该模型总共包含 1,760 亿个参数,但其稀疏激活机制确保了对于任何给定的输入标记,仅有两个专家处于激活状态。这种选择性激活使得活动参数量约为 390 亿个,与同等总规模的密集激活模型相比,显著降低了推理过程中的计算负载。该模型基于仅解码器(decoder-only)的 Transformer 框架运行,并利用稀疏激活模式来优化性能。

Mixtral-8x22B-v0.1 在多个领域展现了卓越的能力,包括多语言理解、数学问题解答和代码生成。它精通英语、法语、意大利语、德语和西班牙语。此外,它还结合了原生函数调用(function calling)能力,增强了其在集成应用环境中的实用性。这些特性使其成为开发聊天机器人、内容创作、文档摘要以及受益于其处理长上下文窗口能力的复杂问答系统的强大工具。

关于 Mixtral

Mixtral 模型系列由 Mistral AI 开发,采用了稀疏混合专家 (SMoE) 架构。该设计在每一层中利用多个专家网络,通过路由器选择其中的一个子集来处理每个词元 (token)。这使得模型在每次前向传播仅激活一小部分参数的情况下,既能拥有庞大的总参数量,又能保持出色的计算效率。


其他 Mixtral 模型

评估基准

排名

#150

基准分数排名

0.587

26

通用文本

Text Arena

1228

95

排名

排名

#150

编程排名

-

模型完整性

总分

B-

63 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
32k
64k

所需显存:

推荐 GPU