ApX 标志ApX 标志

趋近智

Kimi-VL-A3B-Thinking

活跃参数

16B

上下文长度

128K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

MIT License

发布日期

10 Apr 2025

训练数据截止日期

Oct 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

16

键值头

16

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

800,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,048

层数

27

FFN 中间层大小(稠密层)

1,408

多 Token 预测头数

-

分词器

词汇量大小

163,840

混合专家

专家参数总数

3.0B

专家数量

64

活跃专家

2

共享专家数

2

FFN 中间层大小(每专家)

1,408

MoE 前的稠密层数

1

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 2k · Context: 128k · Vocab: 163.8kx 27 layersRMSNormPre-AttentionMulti-Head Attention16Q / 16KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (2/64 experts)SwiGLUIntermediate: 1.4k+Final RMSNormOutput Logits

Kimi-VL-A3B-Thinking

Kimi-VL-A3B-Thinking 是由月之暗面(Moonshot AI)开发的高级视觉语言模型(VLM),旨在在高效参数利用与高保真多模态推理之间取得平衡。在架构上,该模型基于 Moonlight LLM 系列的混合专家(MoE)框架构建,通过 MLP 投影器集成了名为 MoonViT 的原生分辨率视觉编码器。该模型通过监督微调(SFT)和强化学习(RL)针对长时程认知任务进行了专门优化,使其在处理复杂的视觉和文本输入时能够生成扩展的思维链(CoT)。

该系统采用稀疏 MoE 设计,总参数量为 160 亿,而在任何单次推理步骤中仅激活约 28 亿参数。其语言解码器遵循类似于 DeepSeek-V3 的架构配置,具有多头潜在注意力机制(MLA)以及通过 64 个路由专家进行 Token 分发的专门门控机制。这种结构创新使模型能够处理各种输入分辨率和宽高比而无需下采样,从而为光学字符识别(OCR)和大学级学术分析等任务保留了视觉数据的高保真度。

在功能上,Kimi-VL-A3B-Thinking 支持 128,000 个 Token 的庞大上下文窗口,便于摄取长篇文档、多图序列和视频内容。“Thinking”变体专为需要多步数学解题、文档理解和自主智能体交互的场景而量身定制。通过利用 Flash-Attention 2 并支持原生半精度格式,该模型在广泛的多模态推理应用中保持了高吞吐量和计算效率。

关于 Kimi-VL

Kimi-VL 是由月之暗面 (Moonshot AI) 开发的一款高效开源混合专家 (Mixture-of-Experts, MoE) 视觉语言模型。它采用了原生分辨率 MoonViT 编码器和 MoE 语言模型,激活参数量为 28 亿。该模型能够处理高分辨率视觉输入,并支持高达 128K token 的上下文处理。此外,其“Thinking”变体提供了增强的长程推理能力。


其他 Kimi-VL 模型

评估基准

没有可用的 Kimi-VL-A3B-Thinking 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

75 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU