趋近智
活跃参数
229B
上下文长度
128K
模态
Text
架构
Mixture of Experts (MoE)
许可证
MIT
发布日期
7 Nov 2025
训练数据截止日期
Jun 2024
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
8
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
5,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
1,536
多 Token 预测头数
3
分词器
词汇量大小
200,064
混合专家
专家参数总数
10.0B
专家数量
8
活跃专家
2
共享专家数
-
FFN 中间层大小(每专家)
1,536
MoE 前的稠密层数
-
MiniMax M2 是由 MiniMax 开发的一种稀疏混合专家(MoE)Transformer 模型,旨在为复杂的编程和智能体工作流提供高效能表现。该架构的总参数量为 2290 亿,但在推理过程中每个 token 仅激活约 100 亿参数,从而实现了极高的知识储备与计算吞吐比。这种设计使模型能够以小型稠密模型级别的延迟,处理诸如多文件仓库编辑和“代码-运行-修复”迭代循环等长周期任务。
该模型的架构基础建立在全注意力机制之上,并引入了旋转位置编码(RoPE)以实现稳定的长文本处理。它采用均方根层归一化(RMSNorm)和 SiLU (Swiglu) 激活函数,以确保训练的稳定性和表征的高效性。在架构上,它包含 32 个隐藏层,隐藏层维度为 4096,并采用 Top-2 路由策略在其内部专家模块间分配计算任务。128,000 token 的上下文窗口支持摄取大型技术文档和大规模代码库,有助于对深层信息层级进行连贯推理。
针对自主智能体环境,MiniMax M2 通过结构化的推理追踪系统为外部工具集成提供原生支持。该模型在对话轮次间保持内部决策日志,使其能够从 Shell 环境或网页浏览任务的执行错误中恢复。其高效的推理占用空间使其成为持续集成流水线和集成开发环境(IDE)的理想部署选择,满足快速反馈周期和低运营成本的需求。
MiniMax 专为编程和智能体工作流打造的高效 MoE 模型。
排名
#128
| 基准 | 分数 | 排名 |
|---|---|---|
StackEval ProLLM Stack Eval | 0.96 | 8 |
StackUnseen ProLLM Stack Unseen | 0.66 | 17 |
0.739 | 20 | |
研究生级问答 GPQA | 0.78 | 31 |
专业知识 MMLU Pro | 0.82 | 57 |
通用文本 Text Arena | 1346 | 70 |
Web 开发 WebDev Arena | 1305 | 78 |
APX AI
在线