MiniMax M3

闭源

开放权重

参数

428B

上下文长度

模态

Multimodal

架构

Dense

许可证

Proprietary

发布日期

1 Jun 2026

训练数据截止日期

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

900.43 GB VRAM

消费级

51x RTX 4090

24GB VRAM

数据中心

14x NVIDIA A100

80GB VRAM

Apple Silicon

11x Apple M3 Max

128GB VRAM

1000000 个令牌

1029.32 GB VRAM

消费级

60x RTX 4090

24GB VRAM

数据中心

16x NVIDIA A100

80GB VRAM

Apple Silicon

13x Apple M3 Max

128GB VRAM

架构图

评估基准

排名

#14

基准	分数	排名
Web 开发 WebDev Arena	1521	⭐ 10
通用文本 Text Arena	1451	25

排名

#14

编程排名

#23

关于 MiniMax M3

MiniMax 于 2026 年 6 月 1 日发布的旗舰级多模态模型。该模型采用 MiniMax 稀疏注意力 (MSA) 架构，以 KV 块选择模式取代传统的全注意力机制，将计算成本大幅降低至上一代的 1/20。它针对长程智能体工作流、复杂软件工程和视频理解进行了深度优化。具备 100 万 token 的上下文窗口，支持文本、图像和视频输入，定价为每百万输入 token 0.30 美元，每百万输出 token 1.20 美元。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

5,000,000

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

6,144

层数

FFN 中间层大小（稠密层）

12,288

多 Token 预测头数

分词器

词汇量大小

200,064

资源

官方文档下载权重

关于 MiniMax M3

MiniMax's flagship M3 model family, released June 1, 2026, is powered by MiniMax Sparse Attention (MSA) architecture, offering 1M context capabilities at exceptionally low compute cost and optimized for long-horizon agentic workflows.

其他 MiniMax M3 模型

没有相关模型