趋近智
活跃参数
15B
上下文长度
256K
模态
Text
架构
Mixture of Experts (MoE)
许可证
MIT
发布日期
10 Dec 2025
训练数据截止日期
Dec 2024
注意力
注意力结构
Multi-Head Attention
注意力头
64
键值头
8
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
640,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
48
FFN 中间层大小(稠密层)
11,008
多 Token 预测头数
1
分词器
词汇量大小
151,680
混合专家
专家参数总数
309.0B
专家数量
256
活跃专家
8
共享专家数
-
FFN 中间层大小(每专家)
-
MoE 前的稠密层数
-
Xiaomi MiMo V2 Flash 是一款高效的混合专家(MoE)语言模型,专为高级推理、软件工程和自主智能体工作流而设计。该模型基于稀疏架构构建,拥有 3090 亿个总参数,而每次前向传播仅激活 150 亿个参数,有效地平衡了大体量系统的建模能力与较小规模稠密模型的推理速度和运行效率。其开发重点在于高吞吐量性能,通过旨在缓解大规模 Transformer 模型常见的计算和内存瓶颈的结构创新,实现了极高的解码速度。
在技术上,MiMo V2 Flash 引入了一种混合注意力机制,在其 Transformer 块中以 5:1 的比例交替使用滑动窗口注意力(SWA)和全局注意力(GA)。这种配置采用了激进的 128-token 滑动窗口,相比标准全局注意力,将 KV 缓存(KV-cache)的内存需求降低了近六倍,而可学习的注意力汇点偏差(Attention Sink Bias)则确保了长上下文表现的稳定性。此外,该模型还配备了一个原生的多 Token 预测(MTP)模块,由轻量级的 3.3 亿参数稠密前馈块组成。这种 MTP 架构支持并行的 Token 生成和验证,据报道,其解码吞吐量比传统的自回归生成方法提升了 2.0 到 2.6 倍。
MiMo V2 Flash 使用 FP8 混合精度在海量的 27 万亿 Token 语料库上进行了预训练,支持 32,000 Token 的原生序列长度,并能处理高达 256,000 Token 的上下文窗口。后训练阶段采用了新型的多教师在策略蒸馏(MOPD)范式和大规模强化学习,专门针对复杂推理和多步工具调用进行了优化。这种专门的训练使模型能够在文档分析和扩展智能体交互等苛刻的技术场景中表现可靠,使其成为寻求开源权重格式下顶尖性能的研究人员和开发者的资源优化型解决方案。
MiMo-V2-Flash 是一款采用混合注意力架构的混合专家 (MoE) 模型,专为高速推理和智能体工作流而设计。它具备多词元预测 (MTP) 功能,在实现业界领先性能的同时,显著降低了推理成本。该模型针对长上下文建模和高效推理进行了专门优化。
排名
#61
| 基准 | 分数 | 排名 |
|---|---|---|
研究生级问答 GPQA | 0.837 | 15 |
Web 开发 WebDev Arena | 1300 | 61 |
APX AI
在线