ApX 标志ApX 标志

趋近智

Gemma 3n E2B IT

活跃参数

6B

上下文长度

32.768K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Google Gemma License

发布日期

20 May 2025

训练数据截止日期

Jun 2024

技术规格

专家参数总数

2.0B

专家数量

-

活跃专家

-

注意力结构

Multi-Head Attention

隐藏维度大小

2560

层数

30

注意力头

-

键值头

-

激活函数

-

归一化

RMS Normalization

位置嵌入

Absolute Position Embedding

Gemma 3n E2B IT

Gemma 3n E2B IT 是 Google Gemma 3n 模型系列的一员,专为在资源受限的设备(包括手机、笔记本电脑和工作站)上进行高效部署和执行而设计。该模型旨在直接在边缘端实现高性能、实时的人工智能推理。E2B 变体针对各种应用进行了专门的指令微调。

Gemma 3n E2B IT 的架构基础是 Matryoshka Transformer(或称 MatFormer)。该架构的核心创新在于实现了选择性参数激活技术。即使在标准执行期间加载的总参数量为 60 亿,该技术也能使模型以约 20 亿参数的有效内存占用运行。这种灵活的参数管理允许根据计算资源对性能进行动态优化。此外,该模型集成了多模态理解能力,不仅能处理文本输入,还能处理图像、视频和音频,并生成文本输出。对于视觉数据,它采用 SigLIP 视觉编码器,该编码器集成了“Pan & Scan”(平移和扫描)算法,以稳健地处理各种图像分辨率和宽高比。模型内部的注意力机制采用交错模式构建,在五个局部层(每层使用 1024 个 token 的受限滑动窗口)和一个全局层之间交替。这种设计优化了键值 (KV) 缓存管理,这对于高效处理长上下文至关重要。位置编码通过旋转位置嵌入 (RoPE) 进行管理,模型还利用分组查询注意力 (GQA) 以及 RMSNorm 进行归一化。

在运行特性方面,Gemma 3n E2B IT 支持 32,768 个 token 的上下文长度。它具有全面的多语言能力,已在涵盖 140 多种语言的数据上进行了训练,并使用了针对广泛语言覆盖优化的分词器。该模型适用于一系列生成式 AI 任务,包括问答、摘要和推理。其高效的架构使其特别适合集成到需要低资源部署的系统中,例如内容分析工具、自动化文档系统和交互式多模态助手。该模型还支持函数调用,能够构建用于编程控制的自然语言接口。

关于 Gemma 3

Gemma 3 是由 Google 推出的一系列开放、轻量化的模型。它引入了多模态图像与文本处理能力,支持超过 140 种语言,并具备高达 128K token 的扩展上下文窗口。该家族提供多种参数规模的模型,以适用于多样化的应用场景。


其他 Gemma 3 模型

评估基准

排名

#130

基准分数排名

通用知识

MMLU

0.6

32

Web 开发

WebDev Arena

1319

49

排名

排名

#130

编程排名

#63

模型透明度

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU

Gemma 3n E2B IT:规格和 GPU 显存要求