ApX 标志ApX 标志

趋近智

Kimi Linear 48B A3B Instruct

活跃参数

48B

上下文长度

1.05M

模态

Text

架构

Mixture of Experts (MoE)

许可证

MIT

发布日期

1 Nov 2025

训练数据截止日期

Oct 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

1

注意力头维度

72

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

36

FFN 中间层大小(稠密层)

1,024

多 Token 预测头数

0

分词器

词汇量大小

163,840

混合专家

专家参数总数

3.0B

专家数量

128

活跃专家

8

共享专家数

1

FFN 中间层大小(每专家)

1,024

MoE 前的稠密层数

1

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 1.05M · Vocab: 163.8kx 36 layersRMSNormPre-AttentionMulti-Head Attention32Q / 1KV headsHead dim: 72+RMSNormPre-FFNSparse MoE FFN (8/128 experts)SwiGLUIntermediate: 1k+Final RMSNormOutput Logits

Kimi Linear 48B A3B Instruct

Kimi Linear 48B A3B Instruct 是一款大规模语言模型,采用了混合线性注意力架构,旨在克服传统 Transformer 模型的内存和计算限制。其核心创新在于将 Kimi Delta Attention (KDA) 与多头潜变量注意力 (MLA) 以特定的 3:1 交错比例进行集成。KDA 在 Gated DeltaNet 框架的基础上引入了通道级门控机制,实现了对单个特征维度内存衰减的独立控制。这种配置将注意力机制转化为有限状态循环神经网络 (RNN),无论序列长度如何,都能保持恒定的状态内存占用。

该模型利用混合专家 (MoE) 架构来管理其 480 亿个总参数,在单次前向传播中约有 30 亿个激活参数。这种稀疏性结合混合注意力结构,实现了高吞吐量推理和高效的长上下文处理。KDA 层采用了基于对角加低秩 (DPLR) 转移矩阵的专用分块 (chunkwise) 算法,优化了现代硬件加速器的利用率。通过将全局依赖建模卸载给周期性的 MLA 层,同时利用 KDA 维持局部和循环状态,该模型在表达能力和线性扩展之间达成了平衡。

从实现角度来看,Kimi Linear 48B A3B Instruct 为需要极长上下文窗口(支持高达 100 万个 token)的任务提供了一种高效的替代方案。与标准多头注意力模型相比,该架构将键值 (KV) 缓存需求显著降低了约 75%。这种内存开销的减少使得在文档分析和复杂推理等长序列应用中,解码速度大幅提升,同时通过其开源的 MIT 许可实现,保持了与标准训练和微调工作流的兼容性。

关于 Kimi Linear

Moonshot AI 的混合线性注意力架构,搭载 Kimi Delta Attention,旨在实现高效的长文本上下文处理。


其他 Kimi Linear 模型
  • 没有相关模型

评估基准

没有可用的 Kimi Linear 48B A3B Instruct 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

70 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
512k
1024k

所需显存:

推荐 GPU