ApX 标志ApX 标志

趋近智

MiMo V2 Flash

活跃参数

15B

上下文长度

256K

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

10 Dec 2025

训练数据截止日期

Dec 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

64

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

640,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

48

FFN 中间层大小(稠密层)

11,008

多 Token 预测头数

1

分词器

词汇量大小

151,680

混合专家

专家参数总数

309.0B

专家数量

256

活跃专家

8

共享专家数

-

FFN 中间层大小(每专家)

-

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 256k · Vocab: 151.7kx 48 layersRMSNormPre-AttentionMulti-Head Attention64Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (8/256 experts)SwiGLU+Final RMSNormOutput Logits

MiMo V2 Flash

Xiaomi MiMo V2 Flash 是一款高效的混合专家(MoE)语言模型,专为高级推理、软件工程和自主智能体工作流而设计。该模型基于稀疏架构构建,拥有 3090 亿个总参数,而每次前向传播仅激活 150 亿个参数,有效地平衡了大体量系统的建模能力与较小规模稠密模型的推理速度和运行效率。其开发重点在于高吞吐量性能,通过旨在缓解大规模 Transformer 模型常见的计算和内存瓶颈的结构创新,实现了极高的解码速度。

在技术上,MiMo V2 Flash 引入了一种混合注意力机制,在其 Transformer 块中以 5:1 的比例交替使用滑动窗口注意力(SWA)和全局注意力(GA)。这种配置采用了激进的 128-token 滑动窗口,相比标准全局注意力,将 KV 缓存(KV-cache)的内存需求降低了近六倍,而可学习的注意力汇点偏差(Attention Sink Bias)则确保了长上下文表现的稳定性。此外,该模型还配备了一个原生的多 Token 预测(MTP)模块,由轻量级的 3.3 亿参数稠密前馈块组成。这种 MTP 架构支持并行的 Token 生成和验证,据报道,其解码吞吐量比传统的自回归生成方法提升了 2.0 到 2.6 倍。

MiMo V2 Flash 使用 FP8 混合精度在海量的 27 万亿 Token 语料库上进行了预训练,支持 32,000 Token 的原生序列长度,并能处理高达 256,000 Token 的上下文窗口。后训练阶段采用了新型的多教师在策略蒸馏(MOPD)范式和大规模强化学习,专门针对复杂推理和多步工具调用进行了优化。这种专门的训练使模型能够在文档分析和扩展智能体交互等苛刻的技术场景中表现可靠,使其成为寻求开源权重格式下顶尖性能的研究人员和开发者的资源优化型解决方案。

关于 MiMo V2

MiMo-V2-Flash 是一款采用混合注意力架构的混合专家 (MoE) 模型,专为高速推理和智能体工作流而设计。它具备多词元预测 (MTP) 功能,在实现业界领先性能的同时,显著降低了推理成本。该模型针对长上下文建模和高效推理进行了专门优化。


其他 MiMo V2 模型
  • 没有相关模型

评估基准

排名

#61

基准分数排名

研究生级问答

GPQA

0.837

15

Web 开发

WebDev Arena

1300

61

排名

排名

#61

编程排名

#73

模型完整性

总分

B

68 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
125k
250k

所需显存:

推荐 GPU