趋近智
活跃参数
6B
上下文长度
32.768K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Google Gemma License
发布日期
20 May 2025
训练数据截止日期
Jun 2024
专家参数总数
2.0B
专家数量
-
活跃专家
-
注意力结构
Multi-Head Attention
隐藏维度大小
2560
层数
30
注意力头
-
键值头
-
激活函数
-
归一化
RMS Normalization
位置嵌入
Absolute Position Embedding
Gemma 3n E2B IT 是 Google Gemma 3n 模型系列的一员,专为在资源受限的设备(包括手机、笔记本电脑和工作站)上进行高效部署和执行而设计。该模型旨在直接在边缘端实现高性能、实时的人工智能推理。E2B 变体针对各种应用进行了专门的指令微调。
Gemma 3n E2B IT 的架构基础是 Matryoshka Transformer(或称 MatFormer)。该架构的核心创新在于实现了选择性参数激活技术。即使在标准执行期间加载的总参数量为 60 亿,该技术也能使模型以约 20 亿参数的有效内存占用运行。这种灵活的参数管理允许根据计算资源对性能进行动态优化。此外,该模型集成了多模态理解能力,不仅能处理文本输入,还能处理图像、视频和音频,并生成文本输出。对于视觉数据,它采用 SigLIP 视觉编码器,该编码器集成了“Pan & Scan”(平移和扫描)算法,以稳健地处理各种图像分辨率和宽高比。模型内部的注意力机制采用交错模式构建,在五个局部层(每层使用 1024 个 token 的受限滑动窗口)和一个全局层之间交替。这种设计优化了键值 (KV) 缓存管理,这对于高效处理长上下文至关重要。位置编码通过旋转位置嵌入 (RoPE) 进行管理,模型还利用分组查询注意力 (GQA) 以及 RMSNorm 进行归一化。
在运行特性方面,Gemma 3n E2B IT 支持 32,768 个 token 的上下文长度。它具有全面的多语言能力,已在涵盖 140 多种语言的数据上进行了训练,并使用了针对广泛语言覆盖优化的分词器。该模型适用于一系列生成式 AI 任务,包括问答、摘要和推理。其高效的架构使其特别适合集成到需要低资源部署的系统中,例如内容分析工具、自动化文档系统和交互式多模态助手。该模型还支持函数调用,能够构建用于编程控制的自然语言接口。
Gemma 3 是由 Google 推出的一系列开放、轻量化的模型。它引入了多模态图像与文本处理能力,支持超过 140 种语言,并具备高达 128K token 的扩展上下文窗口。该家族提供多种参数规模的模型,以适用于多样化的应用场景。
排名
#130
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.6 | 32 |
Web 开发 WebDev Arena | 1319 | 49 |