趋近智
活跃参数
32B
上下文长度
128K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
6 Mar 2026
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
64
键值头
4
注意力头维度
64
位置嵌入
ROPE
RoPE Theta
8,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
19
FFN 中间层大小(稠密层)
1,024
多 Token 预测头数
-
分词器
词汇量大小
262,144
混合专家
专家参数总数
2.4B
专家数量
128
活跃专家
6
共享专家数
1
FFN 中间层大小(每专家)
1,024
MoE 前的稠密层数
1
Sarvam-30B 是一款先进的混合专家 (MoE) 模型,拥有 32B 总参数和 2.4B 激活参数,专为资源受限环境下的实际部署而设计。该模型于 2026 年 3 月 6 日在 Apache 2.0 协议下发布,采用 19 层架构,包含 128 个专家,使用 Top-6 路由、分组键值注意力 (4 heads) 以及极高的 rope_theta (8e6) 以确保长上下文稳定性。它在 22 种印度语言中展现出顶尖性能,具备强大的推理能力、可靠的编程能力以及同类最佳的对话质量。此外,该模型针对具备工具调用能力的多语言语音通话、吞吐量和内存效率进行了优化。
Sarvam AI 专为印度的语言、文化和语境打造的主权基础模型。该系列先进的混合专家 (MoE) 模型发布于 2026 年 3 月,在 22 种印度语言上展现出顶尖的性能水平,同时在全球基准测试中也保持了极具竞争力的表现。模型设计专注于推理、编程、多语言能力以及智能体任务。该系列模型采用 Apache 2.0 协议开源,并针对从资源受限环境到高性能应用的各类实际部署场景进行了优化。
没有可用的 Sarvam-30B 评估基准。
APX AI
在线