趋近智
参数
3B
上下文长度
128K
模态
Text
架构
Dense
许可证
Mistral Commercial License
发布日期
10 Oct 2024
训练数据截止日期
-
没有可用的 Ministral-3B-2410 评估基准。
排名
-
编程排名
-
Ministral-3B-2410 是由 Mistral AI 开发的基础语言模型,专门针对端侧和边缘计算应用进行了优化。该模型属于“les Ministraux”系列,旨在为需要本地、隐私优先推理的场景提供高效计算和低延迟的解决方案。其紧凑的体积使其能够在资源受限的环境中部署,包括智能手机、平板电脑和物联网设备。Ministral-3B-2410 还可以作为多步智能体(agentic)工作流中的中间环节,处理输入解析、任务路由和 API 调用等任务,从而在与 Mistral Large 等大型模型集成时降低延迟和成本。
在架构上,Ministral-3B-2410 是一款稠密 Transformer 模型。它集成了先进的注意力机制,包括分组查询注意力(GQA),以提高处理速度并降低内存开销。该模型支持高达 128,000 个 token 的上下文长度,便于处理复杂任务的长输入。与 Mistral AI 家族的其他模型一致,它采用了旋转位置嵌入(RoPE)和 RMS 归一化。该模型使用 V3-Tekken 分词器,词表大小为 131,072。
Ministral-3B-2410 专为各种需要本地推理的用例而设计,例如端侧翻译、脱网智能助手、本地分析和自主机器人。它支持原生函数调用能力,使其在 AI 智能体和专业任务中表现出色。该模型旨在平衡能效与性能,通过利用剪枝和量化技术,最大限度地减少在硬件资源有限的设备上部署时的计算负载。
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
12,288
层数
26
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Ministral 模型家族由 Mistral AI 开发,包含 3B 和 8B 参数版本,适用于端侧和边缘计算。这些模型专为高计算效率和低延迟而设计,支持高达 128K 的上下文长度。其中 8B 版本采用了交错式滑动窗口注意力(interleaved sliding-window attention)模式,以实现高效推理。
APX AI
在线