ApX 标志ApX 标志

趋近智

Mistral-Large-2407

参数

123B

上下文长度

128K

模态

Text

架构

Dense

许可证

Mistral Research License

发布日期

24 Jul 2024

训练数据截止日期

Oct 2023

技术规格

注意力结构

Grouped-Query Attention

隐藏维度大小

12288

层数

64

注意力头

48

键值头

8

激活函数

SwigLU

归一化

RMS Normalization

位置嵌入

ROPE

Mistral-Large-2407

Mistral Large 2 (Mistral-Large-2407) 是一款先进的稠密 Transformer 模型,旨在提供卓越的语言理解与计算推理能力。作为该模型系列的旗舰代表,它采用了拥有 1230 亿参数的仅解码器(decoder-only)架构。这一特定的参数量经过精心选择,旨在优化单节点推理,使模型能够在企业级硬件上实现高吞吐量,而无需应对多节点分布式部署的复杂性。该模型旨在处理大规模数据集和长文本内容,在代码生成、数学定理证明和多步逻辑演绎等复杂任务中保持高准确性。

该模型的架构融合了 Transformer 设计领域的多项现代进展,以提升计算效率和性能。它采用了分组查询注意力(GQA)机制,包含 48 个注意力头和 8 个键值头,以降低推理过程中的显存开销,特别是在处理其高达 128,000 个 token 的庞大上下文窗口时。位置信息通过旋转位置嵌入(RoPE)进行管理,并且模型利用 RMS Norm 来实现更稳定的层归一化。前馈网络集成了 SwiGLU 激活函数,与传统的 ReLU 或 GELU 方案相比,它提供了更具表现力的门控机制;同时利用 Flash Attention 来优化处理过程中的速度和资源利用率。

Mistral Large 2 针对自动化工作流和智能体(agentic)系统中的多场景部署进行了优化。它原生支持 80 多种编程语言和数十种人类语言,确保在全球多语言环境中的熟练应用。该模型经过专门微调,显著提升了指令遵循和高精度函数调用能力,使其能够有效地与外部工具对接并生成结构化的 JSON 输出。通过专注于最大限度减少幻觉并增强回答的简洁性,该架构为需要高速处理和复杂推理能力的企业级应用提供了可靠的基础。

关于 Mistral Large 2

Mistral Large 2 是一款拥有 1230 亿参数的稠密 Transformer 模型,专为高级语言和代码生成而打造,支持超过 80 种编程语言。其 128,000 token 的上下文窗口支持在单节点上实现复杂推理和长上下文应用。该模型还集成了增强的函数调用能力。


其他 Mistral Large 2 模型
  • 没有相关模型

评估基准

排名

#52

基准分数排名

0.96

5

通用知识

MMLU

0.84

15

Web 开发

WebDev Arena

1314

52

排名

排名

#52

编程排名

#66

模型透明度

总分

B-

62 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU

Mistral-Large-2407:规格和 GPU 显存要求