趋近智
活跃参数
48B
上下文长度
1.05M
模态
Text
架构
Mixture of Experts (MoE)
许可证
MIT
发布日期
1 Nov 2025
训练数据截止日期
Oct 2024
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
1
注意力头维度
72
位置嵌入
Absolute Position Embedding
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
36
FFN 中间层大小(稠密层)
1,024
多 Token 预测头数
0
分词器
词汇量大小
163,840
混合专家
专家参数总数
3.0B
专家数量
128
活跃专家
8
共享专家数
1
FFN 中间层大小(每专家)
1,024
MoE 前的稠密层数
1
Kimi Linear 48B A3B Instruct 是一款大规模语言模型,采用了混合线性注意力架构,旨在克服传统 Transformer 模型的内存和计算限制。其核心创新在于将 Kimi Delta Attention (KDA) 与多头潜变量注意力 (MLA) 以特定的 3:1 交错比例进行集成。KDA 在 Gated DeltaNet 框架的基础上引入了通道级门控机制,实现了对单个特征维度内存衰减的独立控制。这种配置将注意力机制转化为有限状态循环神经网络 (RNN),无论序列长度如何,都能保持恒定的状态内存占用。
该模型利用混合专家 (MoE) 架构来管理其 480 亿个总参数,在单次前向传播中约有 30 亿个激活参数。这种稀疏性结合混合注意力结构,实现了高吞吐量推理和高效的长上下文处理。KDA 层采用了基于对角加低秩 (DPLR) 转移矩阵的专用分块 (chunkwise) 算法,优化了现代硬件加速器的利用率。通过将全局依赖建模卸载给周期性的 MLA 层,同时利用 KDA 维持局部和循环状态,该模型在表达能力和线性扩展之间达成了平衡。
从实现角度来看,Kimi Linear 48B A3B Instruct 为需要极长上下文窗口(支持高达 100 万个 token)的任务提供了一种高效的替代方案。与标准多头注意力模型相比,该架构将键值 (KV) 缓存需求显著降低了约 75%。这种内存开销的减少使得在文档分析和复杂推理等长序列应用中,解码速度大幅提升,同时通过其开源的 MIT 许可实现,保持了与标准训练和微调工作流的兼容性。
Moonshot AI 的混合线性注意力架构,搭载 Kimi Delta Attention,旨在实现高效的长文本上下文处理。
没有可用的 Kimi Linear 48B A3B Instruct 评估基准。
APX AI
在线