ApX 标志ApX 标志

趋近智

Kimi-VL-A3B-Instruct

活跃参数

16B

上下文长度

128K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

10 Apr 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

16

键值头

16

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

800,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,048

层数

24

FFN 中间层大小(稠密层)

1,408

多 Token 预测头数

-

分词器

词汇量大小

163,840

混合专家

专家参数总数

3.0B

专家数量

384

活跃专家

8

共享专家数

2

FFN 中间层大小(每专家)

1,408

MoE 前的稠密层数

1

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 2k · Context: 128K · Vocab: 163.8kx 24 layersRMSNormPre-AttentionMulti-Head Attention16Q / 16KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (8/384 experts)SwiGLUIntermediate: 1.4k+Final RMSNormOutput Logits

Kimi-VL-A3B-Instruct

Kimi-VL-A3B-Instruct 是由月之暗面 (Moonshot AI) 开发的多模态混合专家 (MoE) 视觉语言模型,旨在实现高分辨率视觉感知和长上下文推理。该模型基于一种基础架构,整合了名为 MoonViT 的原生分辨率视觉编码器和稀疏 MoE 语言解码器。这种设计便于处理多样化的输入,包括单图和多图集、视频序列以及广泛的文档格式。该模型经过指令微调,支持交互式聊天和智能体工作流,并强调在高分辨率图像分析和长序列自然语言理解方面的效率。

在技术层面,该模型采用了一个名为 Moonlight 的稀疏 MoE 语言主干网络,其总参数量为 160 亿,但每个 token 仅激活 28 亿参数。这种稀疏性是通过路由机制实现的,该机制从 384 个备选专家池中筛选出 8 个专家。其视觉组件 MoonViT 支持高达 1792x1792 像素的原生分辨率处理,使模型能够在不进行强制缩放的情况下,保持 OCR 和精细图形分析的高保真度。该架构融合了与 FlashAttention 兼容的可变长度序列注意力机制,确保在处理各种长宽比和分辨率的图像时具有出色的计算效率。

Kimi-VL-A3B-Instruct 针对复杂的多模态任务进行了优化,例如文档解析、长视频理解以及交互式 GUI 智能体操作。其 128,000 token 的超大上下文窗口能够支持在输入大量文本提示的同时,处理多张高分辨率图像或长视频片段。通过将 MoE 的效率与高分辨率视觉编码相结合,该模型非常适合需要精细视觉定位以及在对话或智能体语境下对长篇、多源信息进行推理的应用场景。

关于 Kimi-VL

Kimi-VL 是由月之暗面 (Moonshot AI) 开发的一款高效开源混合专家 (Mixture-of-Experts, MoE) 视觉语言模型。它采用了原生分辨率 MoonViT 编码器和 MoE 语言模型,激活参数量为 28 亿。该模型能够处理高分辨率视觉输入,并支持高达 128K token 的上下文处理。此外,其“Thinking”变体提供了增强的长程推理能力。


其他 Kimi-VL 模型

评估基准

没有可用的 Kimi-VL-A3B-Instruct 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

69 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU