ApX 标志ApX 标志

趋近智

Sarvam-105B

活跃参数

106B

上下文长度

128K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

6 Mar 2026

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Layer Attention

注意力头

64

键值头

-

注意力头维度

576

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

2,048

多 Token 预测头数

-

分词器

词汇量大小

262,144

混合专家

专家参数总数

10.3B

专家数量

128

活跃专家

8

共享专家数

1

FFN 中间层大小(每专家)

2,048

MoE 前的稠密层数

1

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 128k · Vocab: 262.1kx 32 layersRMSNormPre-AttentionMulti-Layer Attention64 headsHead dim: 576+RMSNormPre-FFNSparse MoE FFN (8/128 experts)SwiGLUIntermediate: 2k+Final RMSNormOutput Logits

Sarvam-105B

Sarvam-105B 是一款先进的混合专家 (MoE) 模型,拥有 106B 总参数和 10.3B 激活参数,专为在复杂任务中实现卓越性能而设计。该模型于 2026 年 3 月 6 日发布,采用 Apache 2.0 许可证。它采用了 MLA 风格的注意力栈,具有解耦的 QK 头维度(q_head_dim=192,v_head_dim=128)、576 的大 head_dim,以及包含 128 个专家并采用 top-8 路由机制。模型支持 128K 原生上下文(可通过 40 倍系数的 YaRN 缩放进行扩展),并在智能体任务、数学和编程方面提供卓越性能。在 22 种印度语言中,该模型持续比肩或超越主流闭源模型,取得了最先进(SOTA)的结果,同时在全球基准测试中保持了极具竞争力的表现。

关于 Sarvam

Sarvam AI 专为印度的语言、文化和语境打造的主权基础模型。该系列先进的混合专家 (MoE) 模型发布于 2026 年 3 月,在 22 种印度语言上展现出顶尖的性能水平,同时在全球基准测试中也保持了极具竞争力的表现。模型设计专注于推理、编程、多语言能力以及智能体任务。该系列模型采用 Apache 2.0 协议开源,并针对从资源受限环境到高性能应用的各类实际部署场景进行了优化。


其他 Sarvam 模型

评估基准

没有可用的 Sarvam-105B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

68 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU