趋近智
参数
3B
上下文长度
256K
模态
Multimodal
架构
Dense
许可证
Apache 2.0
发布日期
2 Dec 2025
训练数据截止日期
-
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
8
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
Layer Normalization
激活函数
SwigLU
维度
隐藏维度大小
3,072
层数
26
FFN 中间层大小(稠密层)
9,216
多 Token 预测头数
-
分词器
词汇量大小
131,072
Ministral 3 3B 是由 Mistral AI 开发的一款紧凑型多模态语言模型,专为在边缘计算环境和资源受限场景下的高效运行而设计。该模型架构集成了一个 34 亿参数的语言解码器和一个 4.1 亿参数的视觉 Transformer (ViT) 编码器,总参数量约为 38 亿。这种混合设计使其能够同时处理文本和视觉输入,在保持低计算开销的同时,支持图像描述、视觉问答和多模态数据提取等高级任务。
在技术层面,Ministral 3 3B 采用了基于 Transformer 的稠密仅解码器架构,并利用具有 32 个查询头和 8 个键值头的分组查询注意力 (GQA) 机制来优化内存带宽和推理速度。它采用了通过 YaRN (Yet another RoPE extensioN) 增强的旋转位置嵌入 (RoPE) 以及基于位置的 softmax 温度缩放,以支持高达 256,000 个 token 的超大上下文窗口。为了在此规模下进一步提升效率,3B 版本使用了绑定输入输出嵌入 (tied input-output embeddings),防止词汇表参数导致模型总大小不成比例地增加。视觉组件则采用了源自 Mistral Small 3.1 架构的冻结 ViT 编码器,并结合了全新训练的多模态投影层。
该模型针对高性能端侧应用进行了优化,原生支持函数调用和结构化 JSON 输出,从而实现复杂的智能体工作流。它还引入了 SwiGLU 激活函数和 RMSNorm 等架构改进,以确保本地推理的稳定性和效率。凭借对数十种语言的支持和强大的上下文处理能力,Ministral 3 3B 被定位为一种全方位解决方案,适用于直接在用户硬件上运行的实时翻译、本地内容生成以及注重隐私的智能助手。
Ministral 3 是一个具备视觉能力的高效边缘模型系列,提供 3B、8B 和 14B 三种参数规模。该系列专为边缘部署设计,支持多模态和多语言,在资源受限的环境中提供同类领先的性能表现。
排名
#109
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.707 | 29 |
APX AI
在线