趋近智
活跃参数
46.7B
上下文长度
32.768K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
9 Dec 2023
训练数据截止日期
Nov 2022
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
14,336
多 Token 预测头数
-
分词器
词汇量大小
32,000
混合专家
专家参数总数
7.0B
专家数量
8
活跃专家
2
共享专家数
-
FFN 中间层大小(每专家)
14,336
MoE 前的稠密层数
-
Mixtral-8x7B-v0.1 是由 Mistral AI 开发的一款生成式大语言模型,其独特之处在于采用了稀疏专家混合 (SMoE) 架构。这种设计通过为每个输入条件式地激活其参数子集,使模型能够高效地处理信息。其主要用途是在广泛的应用场景中实现高级文本生成和全面的语言理解。
该模型基于仅解码器(decoder-only)的 Transformer 架构。它集成了一个专家混合层,其中每一层包含八个独立的前馈网络块,即“专家”。路由网络会为每个 token 动态选择其中的两个专家进行处理,随后将其输出相加合并。这一机制使模型能够利用高达 467 亿的总参数量,同时在推理过程中保持每个 token 仅 129 亿的活跃参数量,从而优化了模型容量与计算效率之间的平衡。该架构还引入了分组查询注意力 (GQA) 并支持 Flash Attention,以进一步提升性能。
Mixtral-8x7B-v0.1 支持 32,000 个 token 的上下文长度,使其能够处理长文本输入并生成响应。该模型在多语言任务中表现卓越,支持英语、法语、意大利语、德语和西班牙语。它在代码生成任务中也展现了强大的性能。此外,该模型还可以针对指令遵循任务进行微调,是构建需要精确遵循用户指令的交互式应用的理想基础。
Mixtral 模型系列由 Mistral AI 开发,采用了稀疏混合专家 (SMoE) 架构。该设计在每一层中利用多个专家网络,通过路由器选择其中的一个子集来处理每个词元 (token)。这使得模型在每次前向传播仅激活一小部分参数的情况下,既能拥有庞大的总参数量,又能保持出色的计算效率。
排名
#146
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1197 | 82 |
APX AI
在线