ApX 标志ApX 标志

趋近智

Mistral-Large-2407

参数

123B

上下文长度

128K

模态

Text

架构

Dense

许可证

Mistral Research License

发布日期

24 Jul 2024

训练数据截止日期

Oct 2023

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

260.08 GB VRAM

消费级

13x RTX 4090

24GB VRAM

数据中心

4x NVIDIA A100

80GB VRAM

Apple Silicon

3x Apple M3 Max

128GB VRAM

128000 个令牌

295.03 GB VRAM

消费级

15x RTX 4090

24GB VRAM

数据中心

5x NVIDIA A100

80GB VRAM

Apple Silicon

3x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 12.3k · Context: 128Kx 64 layersRMSNormPre-AttentionGrouped-Query Attention48Q / 8KV headsHead dim: 256+RMSNormPre-FFNFeed-Forward NetworkSwiGLU+Final RMSNormOutput Logits

评估基准

排名

#71

基准分数排名

0.964

5

通用知识

MMLU

0.84

16

Web 开发

WebDev Arena

1314

76

通用文本

Text Arena

1314

84

排名

排名

#71

编程排名

#85

关于 Mistral-Large-2407

Mistral Large 2 (Mistral-Large-2407) 是一款先进的稠密 Transformer 模型,旨在提供卓越的语言理解与计算推理能力。作为该模型系列的旗舰代表,它采用了拥有 1230 亿参数的仅解码器(decoder-only)架构。这一特定的参数量经过精心选择,旨在优化单节点推理,使模型能够在企业级硬件上实现高吞吐量,而无需应对多节点分布式部署的复杂性。该模型旨在处理大规模数据集和长文本内容,在代码生成、数学定理证明和多步逻辑演绎等复杂任务中保持高准确性。

该模型的架构融合了 Transformer 设计领域的多项现代进展,以提升计算效率和性能。它采用了分组查询注意力(GQA)机制,包含 48 个注意力头和 8 个键值头,以降低推理过程中的显存开销,特别是在处理其高达 128,000 个 token 的庞大上下文窗口时。位置信息通过旋转位置嵌入(RoPE)进行管理,并且模型利用 RMS Norm 来实现更稳定的层归一化。前馈网络集成了 SwiGLU 激活函数,与传统的 ReLU 或 GELU 方案相比,它提供了更具表现力的门控机制;同时利用 Flash Attention 来优化处理过程中的速度和资源利用率。

Mistral Large 2 针对自动化工作流和智能体(agentic)系统中的多场景部署进行了优化。它原生支持 80 多种编程语言和数十种人类语言,确保在全球多语言环境中的熟练应用。该模型经过专门微调,显著提升了指令遵循和高精度函数调用能力,使其能够有效地与外部工具对接并生成结构化的 JSON 输出。通过专注于最大限度减少幻觉并增强回答的简洁性,该架构为需要高速处理和复杂推理能力的企业级应用提供了可靠的基础。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

48

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

12,288

层数

64

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

模型完整性

总分

B-

62 / 100

关于 Mistral Large 2

Mistral Large 2 是一款拥有 1230 亿参数的稠密 Transformer 模型,专为高级语言和代码生成而打造,支持超过 80 种编程语言。其 128,000 token 的上下文窗口支持在单节点上实现复杂推理和长上下文应用。该模型还集成了增强的函数调用能力。


其他 Mistral Large 2 模型
  • 没有相关模型
Mistral-Large-2407:规格和 GPU 显存要求