趋近智
参数
27B
上下文长度
128K
模态
Multimodal
架构
Dense
许可证
Gemma Terms of Use
发布日期
12 Mar 2025
训练数据截止日期
Aug 2024
注意力
注意力结构
Grouped-Query Attention
注意力头
64
键值头
16
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
-
维度
隐藏维度大小
4,096
层数
46
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemma 3 是由 Google DeepMind 开发的一系列轻量级、最先进的模型,采用了源自 Gemini 模型的研究成果与技术。Gemma 3 27B 变体是一款多模态模型,旨在处理文本和图像输入并生成文本输出。该模型变体适用于广泛的生成任务,包括问答、摘要和复杂推理,并支持 140 多种语言。其设计重点在于支持在多种硬件上部署,从笔记本电脑、工作站等消费级设备到专用的云端基础设施。
Gemma 3 是由 Google 推出的一系列开放、轻量化的模型。它引入了多模态图像与文本处理能力,支持超过 140 种语言,并具备高达 128K token 的扩展上下文窗口。该家族提供多种参数规模的模型,以适用于多样化的应用场景。
排名
#114
| 基准 | 分数 | 排名 |
|---|---|---|
QA 助手 ProLLM QA Assistant | 0.913 | 13 |
0.802 | 13 | |
StackUnseen ProLLM Stack Unseen | 0.372 | 28 |
0.05 | 36 | |
Web 开发 WebDev Arena | 1365 | 52 |
通用文本 Text Arena | 1365 | 65 |
APX AI
在线