趋近智
活跃参数
16B
上下文长度
128K
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
MIT
发布日期
10 Apr 2025
训练数据截止日期
-
注意力
注意力结构
Multi-Head Attention
注意力头
16
键值头
16
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
800,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
2,048
层数
24
FFN 中间层大小(稠密层)
1,408
多 Token 预测头数
-
分词器
词汇量大小
163,840
混合专家
专家参数总数
3.0B
专家数量
384
活跃专家
8
共享专家数
2
FFN 中间层大小(每专家)
1,408
MoE 前的稠密层数
1
Kimi-VL-A3B-Instruct 是由月之暗面 (Moonshot AI) 开发的多模态混合专家 (MoE) 视觉语言模型,旨在实现高分辨率视觉感知和长上下文推理。该模型基于一种基础架构,整合了名为 MoonViT 的原生分辨率视觉编码器和稀疏 MoE 语言解码器。这种设计便于处理多样化的输入,包括单图和多图集、视频序列以及广泛的文档格式。该模型经过指令微调,支持交互式聊天和智能体工作流,并强调在高分辨率图像分析和长序列自然语言理解方面的效率。
在技术层面,该模型采用了一个名为 Moonlight 的稀疏 MoE 语言主干网络,其总参数量为 160 亿,但每个 token 仅激活 28 亿参数。这种稀疏性是通过路由机制实现的,该机制从 384 个备选专家池中筛选出 8 个专家。其视觉组件 MoonViT 支持高达 1792x1792 像素的原生分辨率处理,使模型能够在不进行强制缩放的情况下,保持 OCR 和精细图形分析的高保真度。该架构融合了与 FlashAttention 兼容的可变长度序列注意力机制,确保在处理各种长宽比和分辨率的图像时具有出色的计算效率。
Kimi-VL-A3B-Instruct 针对复杂的多模态任务进行了优化,例如文档解析、长视频理解以及交互式 GUI 智能体操作。其 128,000 token 的超大上下文窗口能够支持在输入大量文本提示的同时,处理多张高分辨率图像或长视频片段。通过将 MoE 的效率与高分辨率视觉编码相结合,该模型非常适合需要精细视觉定位以及在对话或智能体语境下对长篇、多源信息进行推理的应用场景。
Kimi-VL 是由月之暗面 (Moonshot AI) 开发的一款高效开源混合专家 (Mixture-of-Experts, MoE) 视觉语言模型。它采用了原生分辨率 MoonViT 编码器和 MoE 语言模型,激活参数量为 28 亿。该模型能够处理高分辨率视觉输入,并支持高达 128K token 的上下文处理。此外,其“Thinking”变体提供了增强的长程推理能力。
没有可用的 Kimi-VL-A3B-Instruct 评估基准。
APX AI
在线