趋近智
活跃参数
16B
上下文长度
128K
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
MIT License
发布日期
10 Apr 2025
训练数据截止日期
Oct 2024
注意力
注意力结构
Multi-Head Attention
注意力头
16
键值头
16
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
800,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
2,048
层数
27
FFN 中间层大小(稠密层)
1,408
多 Token 预测头数
-
分词器
词汇量大小
163,840
混合专家
专家参数总数
3.0B
专家数量
64
活跃专家
2
共享专家数
2
FFN 中间层大小(每专家)
1,408
MoE 前的稠密层数
1
Kimi-VL-A3B-Thinking 是由月之暗面(Moonshot AI)开发的高级视觉语言模型(VLM),旨在在高效参数利用与高保真多模态推理之间取得平衡。在架构上,该模型基于 Moonlight LLM 系列的混合专家(MoE)框架构建,通过 MLP 投影器集成了名为 MoonViT 的原生分辨率视觉编码器。该模型通过监督微调(SFT)和强化学习(RL)针对长时程认知任务进行了专门优化,使其在处理复杂的视觉和文本输入时能够生成扩展的思维链(CoT)。
该系统采用稀疏 MoE 设计,总参数量为 160 亿,而在任何单次推理步骤中仅激活约 28 亿参数。其语言解码器遵循类似于 DeepSeek-V3 的架构配置,具有多头潜在注意力机制(MLA)以及通过 64 个路由专家进行 Token 分发的专门门控机制。这种结构创新使模型能够处理各种输入分辨率和宽高比而无需下采样,从而为光学字符识别(OCR)和大学级学术分析等任务保留了视觉数据的高保真度。
在功能上,Kimi-VL-A3B-Thinking 支持 128,000 个 Token 的庞大上下文窗口,便于摄取长篇文档、多图序列和视频内容。“Thinking”变体专为需要多步数学解题、文档理解和自主智能体交互的场景而量身定制。通过利用 Flash-Attention 2 并支持原生半精度格式,该模型在广泛的多模态推理应用中保持了高吞吐量和计算效率。
Kimi-VL 是由月之暗面 (Moonshot AI) 开发的一款高效开源混合专家 (Mixture-of-Experts, MoE) 视觉语言模型。它采用了原生分辨率 MoonViT 编码器和 MoE 语言模型,激活参数量为 28 亿。该模型能够处理高分辨率视觉输入,并支持高达 128K token 的上下文处理。此外,其“Thinking”变体提供了增强的长程推理能力。
没有可用的 Kimi-VL-A3B-Thinking 评估基准。
APX AI
在线