ApX 标志ApX 标志

趋近智

Mistral Large 3

活跃参数

41B

上下文长度

256K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

2 Dec 2025

训练数据截止日期

Oct 2024

技术规格

专家参数总数

675.0B

专家数量

16

活跃专家

2

注意力结构

Multi-Head Attention

隐藏维度大小

12288

层数

88

注意力头

96

键值头

8

激活函数

SwigLU

归一化

RMS Normalization

位置嵌入

Absolute Position Embedding

Mistral Large 3

Mistral Large 3 代表了 Mistral AI 模型谱系的重大演进,是专为高容量、通用多模态基座模型而设计的。该模型旨在处理复杂的企业级工作流和生产级助手任务,在统一架构中集成了原生视觉能力。它被设计为检索增强生成 (RAG) 和复杂智能体系统的核心引擎,提供对函数调用和结构化 JSON 输出的原生支持。这一指令微调 (instruct-tuned) 变体经过后训练优化,确保在各种对话语境下对系统提示词的高遵循度以及可靠的指令遵循能力。

Mistral Large 3 的技术基础是细粒度稀疏混合专家 (MoE) 架构,该架构将总参数容量与推理时的计算成本解耦。通过利用门控网络将 Token 路由至特定的专家子集,该模型维持了 6750 亿的总参数量以实现广博的知识存储,而每个 Token 仅激活约 410 亿参数。这种架构方案结合了 25 亿参数的集成视觉编码器,使模型能够同时处理视觉和文本数据。训练过程采用了由 3,000 块 NVIDIA H200 GPU 组成的大规模集群,使模型能够支持 256,000 个 Token 的上下文窗口,并针对 NVIDIA Blackwell 和 Hopper 等现代硬件架构进行了深度优化。

从运维角度来看,Mistral Large 3 通过支持 FP8 和 NVFP4 等高效量化格式,为大规模部署提供了灵活性。这些优化使得如此体量的模型可以在 8xH200 或 8xH100 等单节点 GPU 配置上运行,而传统上这通常需要多节点基础设施。该模型展示了卓越的多语言能力,支持 40 多种语言,并在非英语对话表现中出类拔萃。这使其成为全球企业的理想解决方案,能够在一个统一的开放权重框架内,胜任文档理解、代码生成和复杂的逻辑推理任务。

关于 Mistral Large 3

Mistral Large 3 是一款最先进的通用多模态模型,采用了细粒度的混合专家 (Mixture-of-Experts) 架构。凭借 675B 的总参数量和 41B 的激活参数量,它能为生产级助手、检索增强系统以及复杂的企业级工作流提供前沿性能。


其他 Mistral Large 3 模型
  • 没有相关模型

评估基准

排名

#69

基准分数排名

0.52

20

专业知识

MMLU Pro

0.80

32

Web 开发

WebDev Arena

1224

71

排名

排名

#69

编程排名

#101

模型透明度

总分

B

68 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
125k
250k

所需显存:

推荐 GPU

Mistral Large 3:规格和 GPU 显存要求