Ministral-3B-2410

闭源

封闭权重

参数

上下文长度

128K

模态

Text

架构

Dense

许可证

Mistral Commercial License

发布日期

10 Oct 2024

训练数据截止日期

评估基准

没有可用的 Ministral-3B-2410 评估基准。

排名

编程排名

关于 Ministral-3B-2410

Ministral-3B-2410 是由 Mistral AI 开发的基础语言模型，专门针对端侧和边缘计算应用进行了优化。该模型属于“les Ministraux”系列，旨在为需要本地、隐私优先推理的场景提供高效计算和低延迟的解决方案。其紧凑的体积使其能够在资源受限的环境中部署，包括智能手机、平板电脑和物联网设备。Ministral-3B-2410 还可以作为多步智能体（agentic）工作流中的中间环节，处理输入解析、任务路由和 API 调用等任务，从而在与 Mistral Large 等大型模型集成时降低延迟和成本。

在架构上，Ministral-3B-2410 是一款稠密 Transformer 模型。它集成了先进的注意力机制，包括分组查询注意力（GQA），以提高处理速度并降低内存开销。该模型支持高达 128,000 个 token 的上下文长度，便于处理复杂任务的长输入。与 Mistral AI 家族的其他模型一致，它采用了旋转位置嵌入（RoPE）和 RMS 归一化。该模型使用 V3-Tekken 分词器，词表大小为 131,072。

Ministral-3B-2410 专为各种需要本地推理的用例而设计，例如端侧翻译、脱网智能助手、本地分析和自主机器人。它支持原生函数调用能力，使其在 AI 智能体和专业任务中表现出色。该模型旨在平衡能效与性能，通过利用剪枝和量化技术，最大限度地减少在硬件资源有限的设备上部署时的计算负载。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

键值头

注意力头维度

位置嵌入

ROPE

RoPE Theta

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

12,288

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

模型完整性

总分

B-

63 / 100

上游

19.5 / 30

模型

24.0 / 40

下游

19.0 / 30

资源

官方文档发布说明

关于 Ministral

Ministral 模型家族由 Mistral AI 开发，包含 3B 和 8B 参数版本，适用于端侧和边缘计算。这些模型专为高计算效率和低延迟而设计，支持高达 128K 的上下文长度。其中 8B 版本采用了交错式滑动窗口注意力（interleaved sliding-window attention）模式，以实现高效推理。

其他 Ministral 模型

Ministral-8B-2410