趋近智
参数
24B
上下文长度
128K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
10 Jun 2025
训练数据截止日期
Oct 2023
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
8
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
1,000,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
14,336
层数
32
FFN 中间层大小(稠密层)
32,768
多 Token 预测头数
-
分词器
词汇量大小
131,072
Magistral Small 是由 Mistral AI 开发的一款拥有 240 亿参数的开源推理模型。其架构基于 Mistral Small 3.1 模型,专门为实现透明的多步推理而设计。该模型能够以用户的语言提供可追溯的思维过程,这一特性旨在增强复杂任务的可解释性和可审计性。它支持超过 24 种语言的多语言推理,包括英语、法语、德语、日语、韩语、中文、阿拉伯语和波斯语等全球通用语言。
从技术角度来看,Magistral Small 采用了仅解码器(decoder-only)的 Transformer 架构,在 32 层网络中拥有 14,336 的隐藏层维度。该模型利用分组查询注意力(GQA)机制,包含 32 个注意力头和 8 个键值头,与传统的多头注意力(MHA)相比,这有助于优化推理速度并降低显存消耗。位置信息通过旋转位置嵌入(RoPE)进行集成,其前馈组件结合了 SwiGLU 激活函数和 RMS 归一化(RMS Normalization)以稳定训练动态。该架构还集成了 FlashAttention 以实现加速处理。虽然模型支持 128,000 个 token 的理论上下文窗口,但最佳性能通常在 40,000 个 token 以内的上下文中体现。
Magistral Small 精通多模态理解,能够对文本和视觉输入进行处理和推理。它特别适用于需要结构化计算、编程逻辑、决策树和基于规则的系统的应用。该模型的设计使其能够胜任多种场景,包括快速响应的对话代理、长文档理解系统、视觉理解应用以及特定领域的微调。此外,它还通过原生函数调用和结构化输出生成,支持智能体(agentic)AI 工作流。
Magistral 是 Mistral AI 推出的首个推理模型系列,专为透明的逐步推理而构建,具备原生多语言能力。该系列支持以用户语言进行思维链推理,并提供可追溯的思考过程。Magistral 擅长处理需要多步逻辑的特定领域问题,涵盖法律研究、财务预测、软件开发以及创意写作等。它支持包括英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语和中文在内的多种语言推理。
排名
#129
| 基准 | 分数 | 排名 |
|---|---|---|
StackUnseen ProLLM Stack Unseen | 0.346 | 29 |
专业知识 MMLU Pro | 0.62 | 53 |
APX AI
在线