趋近智
活跃参数
106B
上下文长度
128K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
6 Mar 2026
训练数据截止日期
-
注意力
注意力结构
Multi-Layer Attention
注意力头
64
键值头
-
注意力头维度
576
位置嵌入
ROPE
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
2,048
多 Token 预测头数
-
分词器
词汇量大小
262,144
混合专家
专家参数总数
10.3B
专家数量
128
活跃专家
8
共享专家数
1
FFN 中间层大小(每专家)
2,048
MoE 前的稠密层数
1
Sarvam-105B 是一款先进的混合专家 (MoE) 模型,拥有 106B 总参数和 10.3B 激活参数,专为在复杂任务中实现卓越性能而设计。该模型于 2026 年 3 月 6 日发布,采用 Apache 2.0 许可证。它采用了 MLA 风格的注意力栈,具有解耦的 QK 头维度(q_head_dim=192,v_head_dim=128)、576 的大 head_dim,以及包含 128 个专家并采用 top-8 路由机制。模型支持 128K 原生上下文(可通过 40 倍系数的 YaRN 缩放进行扩展),并在智能体任务、数学和编程方面提供卓越性能。在 22 种印度语言中,该模型持续比肩或超越主流闭源模型,取得了最先进(SOTA)的结果,同时在全球基准测试中保持了极具竞争力的表现。
Sarvam AI 专为印度的语言、文化和语境打造的主权基础模型。该系列先进的混合专家 (MoE) 模型发布于 2026 年 3 月,在 22 种印度语言上展现出顶尖的性能水平,同时在全球基准测试中也保持了极具竞争力的表现。模型设计专注于推理、编程、多语言能力以及智能体任务。该系列模型采用 Apache 2.0 协议开源,并针对从资源受限环境到高性能应用的各类实际部署场景进行了优化。
没有可用的 Sarvam-105B 评估基准。
APX AI
在线