Sarvam-105B

开源

开放权重

活跃参数

106B

上下文长度

128K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

6 Mar 2026

训练数据截止日期

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

键值头

注意力头维度

576

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

滑动窗口大小

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

FFN 中间层大小（稠密层）

2,048

多 Token 预测头数

分词器

词汇量大小

262,144

混合专家

专家参数总数

10.3B

专家数量

128

活跃专家

共享专家数

FFN 中间层大小（每专家）

2,048

MoE 前的稠密层数

架构图

Sarvam-105B

Sarvam-105B 是一款先进的混合专家 (MoE) 模型，拥有 106B 总参数和 10.3B 激活参数，专为在复杂任务中实现卓越性能而设计。该模型于 2026 年 3 月 6 日发布，采用 Apache 2.0 许可证。它采用了 MLA 风格的注意力栈，具有解耦的 QK 头维度（q_head_dim=192，v_head_dim=128）、576 的大 head_dim，以及包含 128 个专家并采用 top-8 路由机制。模型支持 128K 原生上下文（可通过 40 倍系数的 YaRN 缩放进行扩展），并在智能体任务、数学和编程方面提供卓越性能。在 22 种印度语言中，该模型持续比肩或超越主流闭源模型，取得了最先进（SOTA）的结果，同时在全球基准测试中保持了极具竞争力的表现。

关于 Sarvam

Sarvam AI 专为印度的语言、文化和语境打造的主权基础模型。该系列先进的混合专家 (MoE) 模型发布于 2026 年 3 月，在 22 种印度语言上展现出顶尖的性能水平，同时在全球基准测试中也保持了极具竞争力的表现。模型设计专注于推理、编程、多语言能力以及智能体任务。该系列模型采用 Apache 2.0 协议开源，并针对从资源受限环境到高性能应用的各类实际部署场景进行了优化。

其他 Sarvam 模型

Sarvam-30B

评估基准

没有可用的 Sarvam-105B 评估基准。

排名

编程排名

模型完整性

总分

68 / 100

上游

20.5 / 30

模型

26.0 / 40

下游

21.0 / 30

GPU 要求

完整计算器

量化

选择模型权重的量化方法

上下文大小：1024 个令牌

63k

125k

所需显存:

资源

官方文档下载权重

Sarvam-105B

技术规格

架构图

Sarvam-105B

关于 Sarvam

其他 Sarvam 模型

评估基准

排名

模型完整性

GPU 要求

所需显存:

推荐 GPU

资源