趋近智
参数
14B
上下文长度
256K
模态
Multimodal
架构
Dense
许可证
Apache 2.0
发布日期
2 Dec 2025
训练数据截止日期
Jun 2025
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
8
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
1,000,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
5,120
层数
40
FFN 中间层大小(稠密层)
16,384
多 Token 预测头数
-
分词器
词汇量大小
131,072
Ministral 3 14B 是由 Mistral AI 设计的一种高密度、多模态 Transformer 模型,旨在弥合边缘高效计算与前沿级智能之间的差距。作为 Ministral 3 系列中规模最大的成员,它采用了先进的级联蒸馏(Cascade Distillation)策略,将知识从 Mistral Small 3.1 等大型父模型中逐步迁移到更紧凑的 140 亿参数架构中。该架构整合了一个 135 亿参数的仅解码器(decoder-only)语言核心和一个 4.1 亿参数的冻结视觉 Transformer (ViT) 编码器,使其能够高精度地处理交错的图像和文本输入。
该模型的技术基础包含 40 个 Transformer 层和 5120 的隐藏维度,并利用具有 32 个查询头(query heads)和 8 个键值头(key-value heads)的分组查询注意力(GQA)机制,以优化推理过程中的内存吞吐量。它融合了现代架构的最佳实践,包括用于稳定归一化的 RMSNorm、用于增强非线性处理的 SwiGLU 激活函数,以及通过 YaRN 缩放增强的旋转位置嵌入(RoPE)。这些组件共同支持高达 256,000 个 token 的庞大上下文窗口,使其能够在不损失性能的情况下处理大规模文档集或复杂的多轮智能体工作流。
Ministral 3 14B 专为复杂的自动化和私有 AI 部署而设计,通过对函数调用和结构化 JSON 输出的原生支持,在智能体任务中表现出色。其训练过程强调效率和通用性,提供了涵盖 40 多种语言的强大多语言能力,并在数学和编程等重推理领域展现出顶尖性能。通过平衡高密度架构与先进的量化兼容性,该模型针对本地工作站和企业级边缘硬件的部署进行了优化,为更庞大的云端系统提供了一个高性能的替代方案。
Ministral 3 是一个具备视觉能力的高效边缘模型系列,提供 3B、8B 和 14B 三种参数规模。该系列专为边缘部署设计,支持多模态和多语言,在资源受限的环境中提供同类领先的性能表现。
排名
#80
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.794 | 24 |
APX AI
在线