ApX 标志ApX 标志

趋近智

SmolLM3 3B

参数

3B

上下文长度

128K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

8 Jul 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

16

键值头

4

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

5,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

2,048

层数

36

FFN 中间层大小(稠密层)

11,008

多 Token 预测头数

-

分词器

词汇量大小

128,256

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 2k · Context: 128k · Vocab: 128.3kx 36 layersRMSNormPre-AttentionMulti-Head Attention16Q / 4KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwishIntermediate: 11k+Final RMSNormOutput Logits

SmolLM3 3B

SmolLM3-3B 模型由 Hugging Face 开发,是“Smol”系列中一款紧凑且功能强大的大语言模型 (LLM),专为在资源受限的环境中实现高效率和高性能而设计。作为一款预训练的开源权重基座模型,它在 30 亿参数的量级下集成了多语言理解、长文本处理和双模式推理能力。其设计旨在通过提供可在边缘设备、移动应用及计算资源有限的系统上高效运行的强大解决方案,推动先进人工智能的普及。该模型是创建轻量化且具影响力 AI 解决方案这一更广泛计划的一部分,使复杂的语言理解和生成变得更加触手可及。

在架构上,SmolLM3-3B 是一款仅解码器(decoder-only)的 Transformer 模型,基于 Llama 等模型的基础设计并结合了专门的优化。其关键创新包括采用分组查询注意力(GQA)机制,该机制使用 4 个键值头(KV heads),与传统的全多头注意力相比,在不损失性能的前提下显著减小了推理过程中的 KV 缓存占用。它还具有“无位置编码”(NoPE)特性,这是一种对旋转位置嵌入(RoPE)进行的选择性改进,即从每四层中移除一层 RoPE,从而增强长文本性能。该模型包含 36 个隐藏层,隐藏层维度为 2048,拥有 16 个注意力头。输入与输出嵌入采用共享权重(tied embeddings)设计,以进一步降低显存占用。

SmolLM3-3B 的训练方案涉及在 11.2 万亿 token 的海量数据上进行的三阶段课程学习,数据来源涵盖网页内容、代码、数学和推理数据等多种公开数据集。这种全面的预训练建立了强大的多语言和通用能力。该模型的原生上下文长度为 64,000 token,并通过 YaRN 插值技术进一步扩展至 128,000 token。SmolLM3-3B 支持使用结构化模式(XML 和 Python 工具)进行工具调用等高级功能,使其能够集成到复杂的智能体(agent)工作流中。其设计专注于在推理、知识保留和多语言任务等领域提供极具竞争力的表现,使其适用于在各种平台上需要高效、高质量语言处理的应用场景。

关于 SmolLM Family

SmolLM 开放权重语言模型(例如 SmolLM3)


其他 SmolLM Family 模型
  • 没有相关模型

评估基准

排名

#71

没有可用的 SmolLM3 3B 评估基准。

排名

排名

#71

编程排名

-

模型完整性

总分

B+

83 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU