ApX 标志ApX 标志

趋近智

Mixtral-8x7B-v0.1

活跃参数

46.7B

上下文长度

32.768K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

9 Dec 2023

训练数据截止日期

Nov 2022

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

14,336

多 Token 预测头数

-

分词器

词汇量大小

32,000

混合专家

专家参数总数

7.0B

专家数量

8

活跃专家

2

共享专家数

-

FFN 中间层大小(每专家)

14,336

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 32.8k · Vocab: 32kx 32 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (2/8 experts)SwishIntermediate: 14.3k+Final RMSNormOutput Logits

Mixtral-8x7B-v0.1

Mixtral-8x7B-v0.1 是由 Mistral AI 开发的一款生成式大语言模型,其独特之处在于采用了稀疏专家混合 (SMoE) 架构。这种设计通过为每个输入条件式地激活其参数子集,使模型能够高效地处理信息。其主要用途是在广泛的应用场景中实现高级文本生成和全面的语言理解。

该模型基于仅解码器(decoder-only)的 Transformer 架构。它集成了一个专家混合层,其中每一层包含八个独立的前馈网络块,即“专家”。路由网络会为每个 token 动态选择其中的两个专家进行处理,随后将其输出相加合并。这一机制使模型能够利用高达 467 亿的总参数量,同时在推理过程中保持每个 token 仅 129 亿的活跃参数量,从而优化了模型容量与计算效率之间的平衡。该架构还引入了分组查询注意力 (GQA) 并支持 Flash Attention,以进一步提升性能。

Mixtral-8x7B-v0.1 支持 32,000 个 token 的上下文长度,使其能够处理长文本输入并生成响应。该模型在多语言任务中表现卓越,支持英语、法语、意大利语、德语和西班牙语。它在代码生成任务中也展现了强大的性能。此外,该模型还可以针对指令遵循任务进行微调,是构建需要精确遵循用户指令的交互式应用的理想基础。

关于 Mixtral

Mixtral 模型系列由 Mistral AI 开发,采用了稀疏混合专家 (SMoE) 架构。该设计在每一层中利用多个专家网络,通过路由器选择其中的一个子集来处理每个词元 (token)。这使得模型在每次前向传播仅激活一小部分参数的情况下,既能拥有庞大的总参数量,又能保持出色的计算效率。


其他 Mixtral 模型

评估基准

排名

#146

基准分数排名

Web 开发

WebDev Arena

1197

82

排名

排名

#146

编程排名

#101

模型完整性

总分

B-

63 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU