Kimi-VL-A3B-Instruct

开源

开放权重

活跃参数

16B

上下文长度

128K

模态

Multimodal

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

10 Apr 2025

训练数据截止日期

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

35.31 GB VRAM

消费级

2x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

128000 个令牌

61.52 GB VRAM

消费级

3x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

没有可用的 Kimi-VL-A3B-Instruct 评估基准。

排名

编程排名

关于 Kimi-VL-A3B-Instruct

Kimi-VL-A3B-Instruct 是由月之暗面 (Moonshot AI) 开发的多模态混合专家 (MoE) 视觉语言模型，旨在实现高分辨率视觉感知和长上下文推理。该模型基于一种基础架构，整合了名为 MoonViT 的原生分辨率视觉编码器和稀疏 MoE 语言解码器。这种设计便于处理多样化的输入，包括单图和多图集、视频序列以及广泛的文档格式。该模型经过指令微调，支持交互式聊天和智能体工作流，并强调在高分辨率图像分析和长序列自然语言理解方面的效率。

在技术层面，该模型采用了一个名为 Moonlight 的稀疏 MoE 语言主干网络，其总参数量为 160 亿，但每个 token 仅激活 28 亿参数。这种稀疏性是通过路由机制实现的，该机制从 384 个备选专家池中筛选出 8 个专家。其视觉组件 MoonViT 支持高达 1792x1792 像素的原生分辨率处理，使模型能够在不进行强制缩放的情况下，保持 OCR 和精细图形分析的高保真度。该架构融合了与 FlashAttention 兼容的可变长度序列注意力机制，确保在处理各种长宽比和分辨率的图像时具有出色的计算效率。

Kimi-VL-A3B-Instruct 针对复杂的多模态任务进行了优化，例如文档解析、长视频理解以及交互式 GUI 智能体操作。其 128,000 token 的超大上下文窗口能够支持在输入大量文本提示的同时，处理多张高分辨率图像或长视频片段。通过将 MoE 的效率与高分辨率视觉编码相结合，该模型非常适合需要精细视觉定位以及在对话或智能体语境下对长篇、多源信息进行推理的应用场景。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

800,000

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,048

层数

FFN 中间层大小（稠密层）

1,408

多 Token 预测头数

分词器

词汇量大小

163,840

混合专家

专家参数总数

3.0B

专家数量

384

活跃专家

共享专家数

FFN 中间层大小（每专家）

1,408

MoE 前的稠密层数

模型完整性

总分

69 / 100

上游

21.5 / 30

模型

26.0 / 40

下游

21.5 / 30

资源

官方文档发布说明阅读论文下载权重源代码

关于 Kimi-VL

Kimi-VL 是由月之暗面 (Moonshot AI) 开发的一款高效开源混合专家 (Mixture-of-Experts, MoE) 视觉语言模型。它采用了原生分辨率 MoonViT 编码器和 MoE 语言模型，激活参数量为 28 亿。该模型能够处理高分辨率视觉输入，并支持高达 128K token 的上下文处理。此外，其“Thinking”变体提供了增强的长程推理能力。

其他 Kimi-VL 模型

Kimi-VL-A3B-Thinking