ApX 标志ApX 标志

趋近智

Ministral 3 8B

参数

8B

上下文长度

256K

模态

Multimodal

架构

Dense

许可证

Apache 2.0

发布日期

2 Dec 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

14,336

多 Token 预测头数

-

分词器

词汇量大小

131,072

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 256K · Vocab: 131.1kx 32 layersRMSNormPre-AttentionMulti-Head Attention32Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwishIntermediate: 14.3k+Final RMSNormOutput Logits

Ministral 3 8B

Ministral 3 8B 模型是 Mistral AI 开发的 Ministral 3 系列成员,旨在为边缘和资源受限的环境提供先进的多模态和多语言能力。该模型包含 84 亿个语言模型参数,并辅以 4 亿个视觉编码器参数,总计 88 亿个参数,使其成为本地化 AI 部署中平衡且高效的解决方案。它专为多功能性而设计,支持从实时聊天界面到复杂的代理(agentic)工作流等一系列应用。

在架构上,Ministral 3 8B 是一个稠密 Transformer 模型,具有 32 个隐藏层,隐藏层维度为 4096。其注意力机制采用了 32 个注意力头和 8 个键值头,表明其使用了分组查询注意力(GQA)以实现高效处理。该模型采用旋转位置嵌入(RoPE)来处理序列长度,并使用 SwiGLU (SiLU) 激活函数,以及 RMS 归一化(RMS Normalization)以确保训练和推理的稳定性。该架构针对计算资源有限的场景进行了性能优化,支持高达 256,000 个标记(token)的超长上下文长度。

Ministral 3 8B 具备原生多模态理解能力,能够处理并解释文本和视觉输入。它提供强大的多语言支持,精通英语、法语、西班牙语、德语、意大利语、葡萄牙语、荷兰语、中文、日语和韩语等多种语言。此外,该模型集成了原生函数调用功能并支持 JSON 输出,便于集成到各种代理系统和自动化工作流中。这些特性使其适用于图像和文档描述、本地 AI 助手以及嵌入式系统中的专门问题解决等应用。

关于 Ministral 3

Ministral 3 是一个具备视觉能力的高效边缘模型系列,提供 3B、8B 和 14B 三种参数规模。该系列专为边缘部署设计,支持多模态和多语言,在资源受限的环境中提供同类领先的性能表现。


其他 Ministral 3 模型

评估基准

排名

#92

基准分数排名

通用知识

MMLU

0.761

25

排名

排名

#92

编程排名

-

模型完整性

总分

B+

71 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
125k
250k

所需显存:

推荐 GPU