ApX 标志ApX 标志

趋近智

MiniMax M2

活跃参数

229B

上下文长度

128K

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

7 Nov 2025

训练数据截止日期

Jun 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

5,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

1,536

多 Token 预测头数

3

分词器

词汇量大小

200,064

混合专家

专家参数总数

10.0B

专家数量

8

活跃专家

2

共享专家数

-

FFN 中间层大小(每专家)

1,536

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 128K · Vocab: 200.1kx 32 layersRMSNormPre-AttentionMulti-Head Attention32Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (2/8 experts)SwiGLUIntermediate: 1.5k+Final RMSNormOutput Logits

MiniMax M2

MiniMax M2 是由 MiniMax 开发的一种稀疏混合专家(MoE)Transformer 模型,旨在为复杂的编程和智能体工作流提供高效能表现。该架构的总参数量为 2290 亿,但在推理过程中每个 token 仅激活约 100 亿参数,从而实现了极高的知识储备与计算吞吐比。这种设计使模型能够以小型稠密模型级别的延迟,处理诸如多文件仓库编辑和“代码-运行-修复”迭代循环等长周期任务。

该模型的架构基础建立在全注意力机制之上,并引入了旋转位置编码(RoPE)以实现稳定的长文本处理。它采用均方根层归一化(RMSNorm)和 SiLU (Swiglu) 激活函数,以确保训练的稳定性和表征的高效性。在架构上,它包含 32 个隐藏层,隐藏层维度为 4096,并采用 Top-2 路由策略在其内部专家模块间分配计算任务。128,000 token 的上下文窗口支持摄取大型技术文档和大规模代码库,有助于对深层信息层级进行连贯推理。

针对自主智能体环境,MiniMax M2 通过结构化的推理追踪系统为外部工具集成提供原生支持。该模型在对话轮次间保持内部决策日志,使其能够从 Shell 环境或网页浏览任务的执行错误中恢复。其高效的推理占用空间使其成为持续集成流水线和集成开发环境(IDE)的理想部署选择,满足快速反馈周期和低运营成本的需求。

关于 MiniMax M2

MiniMax 专为编程和智能体工作流打造的高效 MoE 模型。


其他 MiniMax M2 模型
  • 没有相关模型

评估基准

排名

#128

基准分数排名

0.96

8

0.66

17

0.739

20

研究生级问答

GPQA

0.78

31

专业知识

MMLU Pro

0.82

57

通用文本

Text Arena

1346

70

Web 开发

WebDev Arena

1305

78

排名

排名

#128

编程排名

#98

模型完整性

总分

B-

63 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU