ApX 标志ApX 标志

趋近智

Magistral Small

参数

24B

上下文长度

128K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

10 Jun 2025

训练数据截止日期

Oct 2023

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

1,000,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

14,336

层数

32

FFN 中间层大小(稠密层)

32,768

多 Token 预测头数

-

分词器

词汇量大小

131,072

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 14.3k · Context: 128k · Vocab: 131.1kx 32 layersRMSNormPre-AttentionMulti-Head Attention32Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 32.8k+Final RMSNormOutput Logits

Magistral Small

Magistral Small 是由 Mistral AI 开发的一款拥有 240 亿参数的开源推理模型。其架构基于 Mistral Small 3.1 模型,专门为实现透明的多步推理而设计。该模型能够以用户的语言提供可追溯的思维过程,这一特性旨在增强复杂任务的可解释性和可审计性。它支持超过 24 种语言的多语言推理,包括英语、法语、德语、日语、韩语、中文、阿拉伯语和波斯语等全球通用语言。

从技术角度来看,Magistral Small 采用了仅解码器(decoder-only)的 Transformer 架构,在 32 层网络中拥有 14,336 的隐藏层维度。该模型利用分组查询注意力(GQA)机制,包含 32 个注意力头和 8 个键值头,与传统的多头注意力(MHA)相比,这有助于优化推理速度并降低显存消耗。位置信息通过旋转位置嵌入(RoPE)进行集成,其前馈组件结合了 SwiGLU 激活函数和 RMS 归一化(RMS Normalization)以稳定训练动态。该架构还集成了 FlashAttention 以实现加速处理。虽然模型支持 128,000 个 token 的理论上下文窗口,但最佳性能通常在 40,000 个 token 以内的上下文中体现。

Magistral Small 精通多模态理解,能够对文本和视觉输入进行处理和推理。它特别适用于需要结构化计算、编程逻辑、决策树和基于规则的系统的应用。该模型的设计使其能够胜任多种场景,包括快速响应的对话代理、长文档理解系统、视觉理解应用以及特定领域的微调。此外,它还通过原生函数调用和结构化输出生成,支持智能体(agentic)AI 工作流。

关于 Magistral

Magistral 是 Mistral AI 推出的首个推理模型系列,专为透明的逐步推理而构建,具备原生多语言能力。该系列支持以用户语言进行思维链推理,并提供可追溯的思考过程。Magistral 擅长处理需要多步逻辑的特定领域问题,涵盖法律研究、财务预测、软件开发以及创意写作等。它支持包括英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语和中文在内的多种语言推理。


其他 Magistral 模型
  • 没有相关模型

评估基准

排名

#129

基准分数排名

0.346

29

专业知识

MMLU Pro

0.62

53

排名

排名

#129

编程排名

#102

模型完整性

总分

B+

75 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU