趋近智
参数
428B
上下文长度
1M
模态
Multimodal
架构
Dense
许可证
Proprietary
发布日期
1 Jun 2026
训练数据截止日期
-
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
51x RTX 4090
24GB VRAM
数据中心
14x NVIDIA A100
80GB VRAM
Apple Silicon
11x Apple M3 Max
128GB VRAM
1000000 个令牌
消费级
60x RTX 4090
24GB VRAM
数据中心
16x NVIDIA A100
80GB VRAM
Apple Silicon
13x Apple M3 Max
128GB VRAM
排名
#14
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1521 | ⭐ 10 |
通用文本 Text Arena | 1451 | 25 |
排名
#14
编程排名
#23
MiniMax 于 2026 年 6 月 1 日发布的旗舰级多模态模型。该模型采用 MiniMax 稀疏注意力 (MSA) 架构,以 KV 块选择模式取代传统的全注意力机制,将计算成本大幅降低至上一代的 1/20。它针对长程智能体工作流、复杂软件工程和视频理解进行了深度优化。具备 100 万 token 的上下文窗口,支持文本、图像和视频输入,定价为每百万输入 token 0.30 美元,每百万输出 token 1.20 美元。
注意力
注意力结构
Multi-Head Attention
注意力头
64
键值头
4
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
5,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
6,144
层数
60
FFN 中间层大小(稠密层)
12,288
多 Token 预测头数
1
分词器
词汇量大小
200,064
MiniMax's flagship M3 model family, released June 1, 2026, is powered by MiniMax Sparse Attention (MSA) architecture, offering 1M context capabilities at exceptionally low compute cost and optimized for long-horizon agentic workflows.
APX AI
在线