ApX 标志ApX 标志

趋近智

MiniMax M3

参数

428B

上下文长度

1M

模态

Multimodal

架构

Dense

许可证

Proprietary

发布日期

1 Jun 2026

训练数据截止日期

-

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

900.43 GB VRAM

消费级

51x RTX 4090

24GB VRAM

数据中心

14x NVIDIA A100

80GB VRAM

Apple Silicon

11x Apple M3 Max

128GB VRAM

1000000 个令牌

1029.32 GB VRAM

消费级

60x RTX 4090

24GB VRAM

数据中心

16x NVIDIA A100

80GB VRAM

Apple Silicon

13x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 6.1k · Context: 1M · Vocab: 200.1kx 60 layersRMSNormPre-AttentionMulti-Head Attention64Q / 4KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 12.3k+Final RMSNormOutput Logits

评估基准

排名

#14

基准分数排名

Web 开发

WebDev Arena

1521

10

通用文本

Text Arena

1451

25

排名

排名

#14

编程排名

#23

关于 MiniMax M3

MiniMax 于 2026 年 6 月 1 日发布的旗舰级多模态模型。该模型采用 MiniMax 稀疏注意力 (MSA) 架构,以 KV 块选择模式取代传统的全注意力机制,将计算成本大幅降低至上一代的 1/20。它针对长程智能体工作流、复杂软件工程和视频理解进行了深度优化。具备 100 万 token 的上下文窗口,支持文本、图像和视频输入,定价为每百万输入 token 0.30 美元,每百万输出 token 1.20 美元。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

64

键值头

4

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

5,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

6,144

层数

60

FFN 中间层大小(稠密层)

12,288

多 Token 预测头数

1

分词器

词汇量大小

200,064

关于 MiniMax M3

MiniMax's flagship M3 model family, released June 1, 2026, is powered by MiniMax Sparse Attention (MSA) architecture, offering 1M context capabilities at exceptionally low compute cost and optimized for long-horizon agentic workflows.


其他 MiniMax M3 模型
  • 没有相关模型