趋近智
活跃参数
3.5B
上下文长度
1,000K
模态
Text
架构
Mixture of Experts (MoE)
许可证
NVIDIA Open Model License
发布日期
15 Dec 2025
训练数据截止日期
Nov 2025
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
2
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
ReLU2
维度
隐藏维度大小
2,688
层数
52
FFN 中间层大小(稠密层)
1,856
多 Token 预测头数
-
分词器
词汇量大小
131,072
混合专家
专家参数总数
30.0B
专家数量
129
活跃专家
6
共享专家数
1
FFN 中间层大小(每专家)
1,856
MoE 前的稠密层数
-
NVIDIA Nemotron 3 Nano 30B-A3B 是由 NVIDIA 精心开发的一款先进大语言模型,它集成了一种混合专家 (MoE) 架构,结合了 Mamba-2 状态空间模型层和 Transformer 注意力层。这种精密的设计旨在解决传统长上下文处理中存在的计算权衡问题,同时在各种任务中保持高准确度。该模型旨在为显式推理和常规非推理应用提供统一的解决方案,并具备可配置的能力,可根据任务需求调整其推理深度。
在架构上,Nemotron 3 Nano 30B-A3B 总共包含 52 层。其中包括 23 层 Mamba-2 层(特别擅长高效的序列处理和管理扩展上下文)以及 23 层混合专家 (MoE) 层。每个 MoE 层由 128 个路由专家和 1 个共享专家组成,并采用在处理过程中每个 token 激活 6 个专家的机制,以提升计算效率。此外,该模型还包含 6 层分组查询注意力 (GQA) 层,为精细的信息路由提供强大的注意力机制。该模型的隐藏层维度为 2688,采用平方 ReLU (ReLU2) 作为激活函数,并引入 RMSNorm 以确保归一化稳定性。
Nemotron 3 Nano 30B-A3B 专为通用部署和稳健性能而设计,支持高达 100 万个 token 的超长上下文,使其能够处理复杂的步进工作流、智能体系统和检索增强生成 (RAG) 应用中的大规模输入。该模型在约 25 万亿个 token 的庞大语料库上进行了训练,支持英语、西班牙语、法语、德语、意大利语和日语等多种语言的交互,并支持多种编程语言。这一基础使该模型能够作为构建专用 AI 智能体、聊天机器人以及需要高效、准确且可扩展的语言理解与生成能力的系统的核心组件。
Nemotron 3 是 NVIDIA 推出的开放模型系列,为智能体 AI (Agentic AI) 应用提供领先的效率与准确性。该系列模型采用结合了 Latent MoE 设计的混合 Mamba-Transformer MoE 架构,支持高达 100 万 token 的上下文,并具备多 token 预测技术以提升生成效率。其 Nano 版本在保持极高成本效益的同时,性能超越了同类模型。
排名
#117
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1317 | 54 |
专业知识 MMLU Pro | 0.78 | 59 |
APX AI
在线