ApX 标志ApX 标志

趋近智

Ministral-8B-2410

参数

8B

上下文长度

128K

模态

Text

架构

Dense

许可证

Mistral Research License

发布日期

10 Oct 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

100,000,000

滑动窗口注意力

Yes

滑动窗口大小

32,768

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

12,288

层数

36

FFN 中间层大小(稠密层)

12,288

多 Token 预测头数

-

分词器

词汇量大小

131,072

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 12.3k · Context: 128K · Vocab: 131.1kx 36 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV heads · SW: 32.8kHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwishIntermediate: 12.3k+Final RMSNormOutput Logits

Ministral-8B-2410

Ministral-8B-2410 是由 Mistral AI 开发的一款先进的大语言模型,拥有约 80 亿个参数。作为“les Ministraux”模型系列的一员,它与 Ministral 3B 同期推出,专门针对本地智能、端侧计算和边缘计算场景进行了优化。该模型系列的核心目标是为资源受限环境或有隐私优先本地数据处理需求的应用提供高效计算和低延迟的推理解决方案。此外,该模型还提供经过指令微调的变体版本 Ministral-8B-Instruct-2410。

Ministral-8B-2410 的技术架构基于稠密 Transformer 网络,包含 36 层、32 个注意力头,嵌入维度为 4096,并映射至 12288 的隐藏层维度。其设计中的一项关键创新是集成了 12.8 万(128k)个 token 的上下文窗口,并通过交替滑动窗口注意力(Interleaved Sliding-Window Attention)机制得以实现。同时,模型采用了带有 8 个键值头(KV heads)的分组查询注意力(GQA),进一步提升了推理速度和内存效率。该模型使用 V3-Tekken 分词器,支持 131,072 个 token 的词表大小,优化了其处理多样化语言输入的能力。

Ministral-8B-2410 在内容生成、问答、代码生成或辅助等一系列自然语言处理任务中表现出卓越的能力。它在多语言环境下表现强劲,支持 10 种主要语言,并内置对函数调用(Function Calling)的支持,能够实现高级 API 交互。凭借低延迟和高效处理的特性,该模型特别适用于端侧翻译、无需互联网的智能助手、本地数据分析以及自主机器人等实际应用。此外,它还可以在复杂的、多步骤的智能体(Agentic)工作流中,作为处理函数调用的高效中转节点。

关于 Ministral

Ministral 模型家族由 Mistral AI 开发,包含 3B 和 8B 参数版本,适用于端侧和边缘计算。这些模型专为高计算效率和低延迟而设计,支持高达 128K 的上下文长度。其中 8B 版本采用了交错式滑动窗口注意力(interleaved sliding-window attention)模式,以实现高效推理。


其他 Ministral 模型

评估基准

排名

#131

基准分数排名

通用知识

MMLU

0.65

33

Web 开发

WebDev Arena

1237

91

通用文本

Text Arena

1237

94

排名

排名

#131

编程排名

#107

模型完整性

总分

B-

61 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU