趋近智
参数
8B
上下文长度
128K
模态
Text
架构
Dense
许可证
Mistral Research License
发布日期
10 Oct 2024
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
100,000,000
滑动窗口注意力
Yes
滑动窗口大小
32,768
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
12,288
层数
36
FFN 中间层大小(稠密层)
12,288
多 Token 预测头数
-
分词器
词汇量大小
131,072
Ministral-8B-2410 是由 Mistral AI 开发的一款先进的大语言模型,拥有约 80 亿个参数。作为“les Ministraux”模型系列的一员,它与 Ministral 3B 同期推出,专门针对本地智能、端侧计算和边缘计算场景进行了优化。该模型系列的核心目标是为资源受限环境或有隐私优先本地数据处理需求的应用提供高效计算和低延迟的推理解决方案。此外,该模型还提供经过指令微调的变体版本 Ministral-8B-Instruct-2410。
Ministral-8B-2410 的技术架构基于稠密 Transformer 网络,包含 36 层、32 个注意力头,嵌入维度为 4096,并映射至 12288 的隐藏层维度。其设计中的一项关键创新是集成了 12.8 万(128k)个 token 的上下文窗口,并通过交替滑动窗口注意力(Interleaved Sliding-Window Attention)机制得以实现。同时,模型采用了带有 8 个键值头(KV heads)的分组查询注意力(GQA),进一步提升了推理速度和内存效率。该模型使用 V3-Tekken 分词器,支持 131,072 个 token 的词表大小,优化了其处理多样化语言输入的能力。
Ministral-8B-2410 在内容生成、问答、代码生成或辅助等一系列自然语言处理任务中表现出卓越的能力。它在多语言环境下表现强劲,支持 10 种主要语言,并内置对函数调用(Function Calling)的支持,能够实现高级 API 交互。凭借低延迟和高效处理的特性,该模型特别适用于端侧翻译、无需互联网的智能助手、本地数据分析以及自主机器人等实际应用。此外,它还可以在复杂的、多步骤的智能体(Agentic)工作流中,作为处理函数调用的高效中转节点。
Ministral 模型家族由 Mistral AI 开发,包含 3B 和 8B 参数版本,适用于端侧和边缘计算。这些模型专为高计算效率和低延迟而设计,支持高达 128K 的上下文长度。其中 8B 版本采用了交错式滑动窗口注意力(interleaved sliding-window attention)模式,以实现高效推理。
排名
#131
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.65 | 33 |
Web 开发 WebDev Arena | 1237 | 91 |
通用文本 Text Arena | 1237 | 94 |
APX AI
在线