ApX 标志ApX 标志

趋近智

Ministral 3 14B

参数

14B

上下文长度

256K

模态

Multimodal

架构

Dense

许可证

Apache 2.0

发布日期

2 Dec 2025

训练数据截止日期

Jun 2025

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

1,000,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

40

FFN 中间层大小(稠密层)

16,384

多 Token 预测头数

-

分词器

词汇量大小

131,072

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 5.1k · Context: 256K · Vocab: 131.1kx 40 layersRMSNormPre-AttentionMulti-Head Attention32Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 16.4k+Final RMSNormOutput Logits

Ministral 3 14B

Ministral 3 14B 是由 Mistral AI 设计的一种高密度、多模态 Transformer 模型,旨在弥合边缘高效计算与前沿级智能之间的差距。作为 Ministral 3 系列中规模最大的成员,它采用了先进的级联蒸馏(Cascade Distillation)策略,将知识从 Mistral Small 3.1 等大型父模型中逐步迁移到更紧凑的 140 亿参数架构中。该架构整合了一个 135 亿参数的仅解码器(decoder-only)语言核心和一个 4.1 亿参数的冻结视觉 Transformer (ViT) 编码器,使其能够高精度地处理交错的图像和文本输入。

该模型的技术基础包含 40 个 Transformer 层和 5120 的隐藏维度,并利用具有 32 个查询头(query heads)和 8 个键值头(key-value heads)的分组查询注意力(GQA)机制,以优化推理过程中的内存吞吐量。它融合了现代架构的最佳实践,包括用于稳定归一化的 RMSNorm、用于增强非线性处理的 SwiGLU 激活函数,以及通过 YaRN 缩放增强的旋转位置嵌入(RoPE)。这些组件共同支持高达 256,000 个 token 的庞大上下文窗口,使其能够在不损失性能的情况下处理大规模文档集或复杂的多轮智能体工作流。

Ministral 3 14B 专为复杂的自动化和私有 AI 部署而设计,通过对函数调用和结构化 JSON 输出的原生支持,在智能体任务中表现出色。其训练过程强调效率和通用性,提供了涵盖 40 多种语言的强大多语言能力,并在数学和编程等重推理领域展现出顶尖性能。通过平衡高密度架构与先进的量化兼容性,该模型针对本地工作站和企业级边缘硬件的部署进行了优化,为更庞大的云端系统提供了一个高性能的替代方案。

关于 Ministral 3

Ministral 3 是一个具备视觉能力的高效边缘模型系列,提供 3B、8B 和 14B 三种参数规模。该系列专为边缘部署设计,支持多模态和多语言,在资源受限的环境中提供同类领先的性能表现。


其他 Ministral 3 模型

评估基准

排名

#80

基准分数排名

通用知识

MMLU

0.794

24

排名

排名

#80

编程排名

-

模型完整性

总分

B+

73 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
125k
250k

所需显存:

推荐 GPU