趋近智
活跃参数
41B
上下文长度
256K
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
2 Dec 2025
训练数据截止日期
Oct 2024
专家参数总数
675.0B
专家数量
16
活跃专家
2
注意力结构
Multi-Head Attention
隐藏维度大小
12288
层数
88
注意力头
96
键值头
8
激活函数
SwigLU
归一化
RMS Normalization
位置嵌入
Absolute Position Embedding
Mistral Large 3 代表了 Mistral AI 模型谱系的重大演进,是专为高容量、通用多模态基座模型而设计的。该模型旨在处理复杂的企业级工作流和生产级助手任务,在统一架构中集成了原生视觉能力。它被设计为检索增强生成 (RAG) 和复杂智能体系统的核心引擎,提供对函数调用和结构化 JSON 输出的原生支持。这一指令微调 (instruct-tuned) 变体经过后训练优化,确保在各种对话语境下对系统提示词的高遵循度以及可靠的指令遵循能力。
Mistral Large 3 的技术基础是细粒度稀疏混合专家 (MoE) 架构,该架构将总参数容量与推理时的计算成本解耦。通过利用门控网络将 Token 路由至特定的专家子集,该模型维持了 6750 亿的总参数量以实现广博的知识存储,而每个 Token 仅激活约 410 亿参数。这种架构方案结合了 25 亿参数的集成视觉编码器,使模型能够同时处理视觉和文本数据。训练过程采用了由 3,000 块 NVIDIA H200 GPU 组成的大规模集群,使模型能够支持 256,000 个 Token 的上下文窗口,并针对 NVIDIA Blackwell 和 Hopper 等现代硬件架构进行了深度优化。
从运维角度来看,Mistral Large 3 通过支持 FP8 和 NVFP4 等高效量化格式,为大规模部署提供了灵活性。这些优化使得如此体量的模型可以在 8xH200 或 8xH100 等单节点 GPU 配置上运行,而传统上这通常需要多节点基础设施。该模型展示了卓越的多语言能力,支持 40 多种语言,并在非英语对话表现中出类拔萃。这使其成为全球企业的理想解决方案,能够在一个统一的开放权重框架内,胜任文档理解、代码生成和复杂的逻辑推理任务。
Mistral Large 3 是一款最先进的通用多模态模型,采用了细粒度的混合专家 (Mixture-of-Experts) 架构。凭借 675B 的总参数量和 41B 的激活参数量,它能为生产级助手、检索增强系统以及复杂的企业级工作流提供前沿性能。
排名
#69
| 基准 | 分数 | 排名 |
|---|---|---|
StackUnseen ProLLM Stack Unseen | 0.52 | 20 |
专业知识 MMLU Pro | 0.80 | 32 |
Web 开发 WebDev Arena | 1224 | 71 |