ApX 标志ApX 标志

趋近智

Ministral 3 3B

参数

3B

上下文长度

256K

模态

Multimodal

架构

Dense

许可证

Apache 2.0

发布日期

2 Dec 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

Layer Normalization

激活函数

SwigLU

维度

隐藏维度大小

3,072

层数

26

FFN 中间层大小(稠密层)

9,216

多 Token 预测头数

-

分词器

词汇量大小

131,072

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 3.1k · Context: 256K · Vocab: 131.1kx 26 layersLayerNormPre-AttentionMulti-Head Attention32Q / 8KV headsHead dim: 128+LayerNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 9.2k+Final LayerNormOutput Logits

Ministral 3 3B

Ministral 3 3B 是由 Mistral AI 开发的一款紧凑型多模态语言模型,专为在边缘计算环境和资源受限场景下的高效运行而设计。该模型架构集成了一个 34 亿参数的语言解码器和一个 4.1 亿参数的视觉 Transformer (ViT) 编码器,总参数量约为 38 亿。这种混合设计使其能够同时处理文本和视觉输入,在保持低计算开销的同时,支持图像描述、视觉问答和多模态数据提取等高级任务。

在技术层面,Ministral 3 3B 采用了基于 Transformer 的稠密仅解码器架构,并利用具有 32 个查询头和 8 个键值头的分组查询注意力 (GQA) 机制来优化内存带宽和推理速度。它采用了通过 YaRN (Yet another RoPE extensioN) 增强的旋转位置嵌入 (RoPE) 以及基于位置的 softmax 温度缩放,以支持高达 256,000 个 token 的超大上下文窗口。为了在此规模下进一步提升效率,3B 版本使用了绑定输入输出嵌入 (tied input-output embeddings),防止词汇表参数导致模型总大小不成比例地增加。视觉组件则采用了源自 Mistral Small 3.1 架构的冻结 ViT 编码器,并结合了全新训练的多模态投影层。

该模型针对高性能端侧应用进行了优化,原生支持函数调用和结构化 JSON 输出,从而实现复杂的智能体工作流。它还引入了 SwiGLU 激活函数和 RMSNorm 等架构改进,以确保本地推理的稳定性和效率。凭借对数十种语言的支持和强大的上下文处理能力,Ministral 3 3B 被定位为一种全方位解决方案,适用于直接在用户硬件上运行的实时翻译、本地内容生成以及注重隐私的智能助手。

关于 Ministral 3

Ministral 3 是一个具备视觉能力的高效边缘模型系列,提供 3B、8B 和 14B 三种参数规模。该系列专为边缘部署设计,支持多模态和多语言,在资源受限的环境中提供同类领先的性能表现。


其他 Ministral 3 模型

评估基准

排名

#109

基准分数排名

通用知识

MMLU

0.707

29

排名

排名

#109

编程排名

-

模型完整性

总分

B+

73 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
125k
250k

所需显存:

推荐 GPU