趋近智
参数
3B
上下文长度
128K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
8 Jul 2025
训练数据截止日期
-
注意力
注意力结构
Multi-Head Attention
注意力头
16
键值头
4
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
5,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
2,048
层数
36
FFN 中间层大小(稠密层)
11,008
多 Token 预测头数
-
分词器
词汇量大小
128,256
SmolLM3-3B 模型由 Hugging Face 开发,是“Smol”系列中一款紧凑且功能强大的大语言模型 (LLM),专为在资源受限的环境中实现高效率和高性能而设计。作为一款预训练的开源权重基座模型,它在 30 亿参数的量级下集成了多语言理解、长文本处理和双模式推理能力。其设计旨在通过提供可在边缘设备、移动应用及计算资源有限的系统上高效运行的强大解决方案,推动先进人工智能的普及。该模型是创建轻量化且具影响力 AI 解决方案这一更广泛计划的一部分,使复杂的语言理解和生成变得更加触手可及。
在架构上,SmolLM3-3B 是一款仅解码器(decoder-only)的 Transformer 模型,基于 Llama 等模型的基础设计并结合了专门的优化。其关键创新包括采用分组查询注意力(GQA)机制,该机制使用 4 个键值头(KV heads),与传统的全多头注意力相比,在不损失性能的前提下显著减小了推理过程中的 KV 缓存占用。它还具有“无位置编码”(NoPE)特性,这是一种对旋转位置嵌入(RoPE)进行的选择性改进,即从每四层中移除一层 RoPE,从而增强长文本性能。该模型包含 36 个隐藏层,隐藏层维度为 2048,拥有 16 个注意力头。输入与输出嵌入采用共享权重(tied embeddings)设计,以进一步降低显存占用。
SmolLM3-3B 的训练方案涉及在 11.2 万亿 token 的海量数据上进行的三阶段课程学习,数据来源涵盖网页内容、代码、数学和推理数据等多种公开数据集。这种全面的预训练建立了强大的多语言和通用能力。该模型的原生上下文长度为 64,000 token,并通过 YaRN 插值技术进一步扩展至 128,000 token。SmolLM3-3B 支持使用结构化模式(XML 和 Python 工具)进行工具调用等高级功能,使其能够集成到复杂的智能体(agent)工作流中。其设计专注于在推理、知识保留和多语言任务等领域提供极具竞争力的表现,使其适用于在各种平台上需要高效、高质量语言处理的应用场景。
SmolLM 开放权重语言模型(例如 SmolLM3)
排名
#71
没有可用的 SmolLM3 3B 评估基准。
APX AI
在线