趋近智
参数
8B
上下文长度
256K
模态
Multimodal
架构
Dense
许可证
Apache 2.0
发布日期
2 Dec 2025
训练数据截止日期
-
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
8
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
14,336
多 Token 预测头数
-
分词器
词汇量大小
131,072
Ministral 3 8B 模型是 Mistral AI 开发的 Ministral 3 系列成员,旨在为边缘和资源受限的环境提供先进的多模态和多语言能力。该模型包含 84 亿个语言模型参数,并辅以 4 亿个视觉编码器参数,总计 88 亿个参数,使其成为本地化 AI 部署中平衡且高效的解决方案。它专为多功能性而设计,支持从实时聊天界面到复杂的代理(agentic)工作流等一系列应用。
在架构上,Ministral 3 8B 是一个稠密 Transformer 模型,具有 32 个隐藏层,隐藏层维度为 4096。其注意力机制采用了 32 个注意力头和 8 个键值头,表明其使用了分组查询注意力(GQA)以实现高效处理。该模型采用旋转位置嵌入(RoPE)来处理序列长度,并使用 SwiGLU (SiLU) 激活函数,以及 RMS 归一化(RMS Normalization)以确保训练和推理的稳定性。该架构针对计算资源有限的场景进行了性能优化,支持高达 256,000 个标记(token)的超长上下文长度。
Ministral 3 8B 具备原生多模态理解能力,能够处理并解释文本和视觉输入。它提供强大的多语言支持,精通英语、法语、西班牙语、德语、意大利语、葡萄牙语、荷兰语、中文、日语和韩语等多种语言。此外,该模型集成了原生函数调用功能并支持 JSON 输出,便于集成到各种代理系统和自动化工作流中。这些特性使其适用于图像和文档描述、本地 AI 助手以及嵌入式系统中的专门问题解决等应用。
Ministral 3 是一个具备视觉能力的高效边缘模型系列,提供 3B、8B 和 14B 三种参数规模。该系列专为边缘部署设计,支持多模态和多语言,在资源受限的环境中提供同类领先的性能表现。
排名
#92
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.761 | 25 |
APX AI
在线