趋近智
参数
123B
上下文长度
128K
模态
Text
架构
Dense
许可证
Mistral Research License
发布日期
24 Jul 2024
训练数据截止日期
Oct 2023
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
13x RTX 4090
24GB VRAM
数据中心
4x NVIDIA A100
80GB VRAM
Apple Silicon
3x Apple M3 Max
128GB VRAM
128000 个令牌
消费级
15x RTX 4090
24GB VRAM
数据中心
5x NVIDIA A100
80GB VRAM
Apple Silicon
3x Apple M3 Max
128GB VRAM
排名
#71
| 基准 | 分数 | 排名 |
|---|---|---|
QA 助手 ProLLM QA Assistant | 0.964 | 5 |
通用知识 MMLU | 0.84 | 16 |
Web 开发 WebDev Arena | 1314 | 76 |
通用文本 Text Arena | 1314 | 84 |
排名
#71
编程排名
#85
Mistral Large 2 (Mistral-Large-2407) 是一款先进的稠密 Transformer 模型,旨在提供卓越的语言理解与计算推理能力。作为该模型系列的旗舰代表,它采用了拥有 1230 亿参数的仅解码器(decoder-only)架构。这一特定的参数量经过精心选择,旨在优化单节点推理,使模型能够在企业级硬件上实现高吞吐量,而无需应对多节点分布式部署的复杂性。该模型旨在处理大规模数据集和长文本内容,在代码生成、数学定理证明和多步逻辑演绎等复杂任务中保持高准确性。
该模型的架构融合了 Transformer 设计领域的多项现代进展,以提升计算效率和性能。它采用了分组查询注意力(GQA)机制,包含 48 个注意力头和 8 个键值头,以降低推理过程中的显存开销,特别是在处理其高达 128,000 个 token 的庞大上下文窗口时。位置信息通过旋转位置嵌入(RoPE)进行管理,并且模型利用 RMS Norm 来实现更稳定的层归一化。前馈网络集成了 SwiGLU 激活函数,与传统的 ReLU 或 GELU 方案相比,它提供了更具表现力的门控机制;同时利用 Flash Attention 来优化处理过程中的速度和资源利用率。
Mistral Large 2 针对自动化工作流和智能体(agentic)系统中的多场景部署进行了优化。它原生支持 80 多种编程语言和数十种人类语言,确保在全球多语言环境中的熟练应用。该模型经过专门微调,显著提升了指令遵循和高精度函数调用能力,使其能够有效地与外部工具对接并生成结构化的 JSON 输出。通过专注于最大限度减少幻觉并增强回答的简洁性,该架构为需要高速处理和复杂推理能力的企业级应用提供了可靠的基础。
注意力
注意力结构
Grouped-Query Attention
注意力头
48
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
12,288
层数
64
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Mistral Large 2 是一款拥有 1230 亿参数的稠密 Transformer 模型,专为高级语言和代码生成而打造,支持超过 80 种编程语言。其 128,000 token 的上下文窗口支持在单节点上实现复杂推理和长上下文应用。该模型还集成了增强的函数调用能力。
APX AI
在线