Mistral Large 3

开源

开放权重

活跃参数

41B

上下文长度

256K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

2 Dec 2025

训练数据截止日期

Oct 2024

技术规格

专家参数总数

675.0B

专家数量

活跃专家

注意力结构

Multi-Head Attention

隐藏维度大小

12288

层数

注意力头

键值头

激活函数

SwigLU

归一化

RMS Normalization

位置嵌入

Absolute Position Embedding

Mistral Large 3

Mistral Large 3 代表了 Mistral AI 模型谱系的重大演进，是专为高容量、通用多模态基座模型而设计的。该模型旨在处理复杂的企业级工作流和生产级助手任务，在统一架构中集成了原生视觉能力。它被设计为检索增强生成 (RAG) 和复杂智能体系统的核心引擎，提供对函数调用和结构化 JSON 输出的原生支持。这一指令微调 (instruct-tuned) 变体经过后训练优化，确保在各种对话语境下对系统提示词的高遵循度以及可靠的指令遵循能力。

Mistral Large 3 的技术基础是细粒度稀疏混合专家 (MoE) 架构，该架构将总参数容量与推理时的计算成本解耦。通过利用门控网络将 Token 路由至特定的专家子集，该模型维持了 6750 亿的总参数量以实现广博的知识存储，而每个 Token 仅激活约 410 亿参数。这种架构方案结合了 25 亿参数的集成视觉编码器，使模型能够同时处理视觉和文本数据。训练过程采用了由 3,000 块 NVIDIA H200 GPU 组成的大规模集群，使模型能够支持 256,000 个 Token 的上下文窗口，并针对 NVIDIA Blackwell 和 Hopper 等现代硬件架构进行了深度优化。

从运维角度来看，Mistral Large 3 通过支持 FP8 和 NVFP4 等高效量化格式，为大规模部署提供了灵活性。这些优化使得如此体量的模型可以在 8xH200 或 8xH100 等单节点 GPU 配置上运行，而传统上这通常需要多节点基础设施。该模型展示了卓越的多语言能力，支持 40 多种语言，并在非英语对话表现中出类拔萃。这使其成为全球企业的理想解决方案，能够在一个统一的开放权重框架内，胜任文档理解、代码生成和复杂的逻辑推理任务。

关于 Mistral Large 3

Mistral Large 3 是一款最先进的通用多模态模型，采用了细粒度的混合专家 (Mixture-of-Experts) 架构。凭借 675B 的总参数量和 41B 的激活参数量，它能为生产级助手、检索增强系统以及复杂的企业级工作流提供前沿性能。

其他 Mistral Large 3 模型

没有相关模型

评估基准

排名

#69

基准	分数	排名
StackUnseen ProLLM Stack Unseen	0.52	20
专业知识 MMLU Pro	0.80	32
Web 开发 WebDev Arena	1224	71

排名

#69

编程排名

#101

模型透明度

总分

68 / 100

上游

17.0 / 30

模型

27.0 / 40

下游

24.0 / 30

GPU 要求

完整计算器

量化

选择模型权重的量化方法

上下文大小：1024 个令牌

125k

250k

所需显存:

资源

官方文档下载权重源代码

Mistral Large 3

技术规格

Mistral Large 3

关于 Mistral Large 3

其他 Mistral Large 3 模型

评估基准

排名

模型透明度

GPU 要求

所需显存:

推荐 GPU

资源