趋近智
参数
-
上下文长度
2,097.152K
模态
Multimodal
架构
Dense
许可证
Proprietary
发布日期
8 Jan 2026
训练数据截止日期
Oct 2025
注意力结构
Multi-Head Attention
隐藏维度大小
-
层数
-
注意力头
-
键值头
-
激活函数
SwigLU
归一化
RMS Normalization
位置嵌入
Absolute Position Embedding
Gemini 3 Pro Preview High 是一款高容量多模态模型,专为企业级集成和大规模数据处理而设计。它作为一个有状态引擎运行,能够在单个推理上下文中处理涵盖文本、图像、音频和视频模态的数据。该系统专为需要执行多步任务和复杂逻辑的高吞吐量环境而打造。它在统一的 Transformer 框架下运行,以保持不同输入类型之间的一致性,为数据合成和跨模态推理提供稳定的基础。
其架构采用了针对长序列处理优化的密集 Transformer 配置和多头注意力机制。它采用专门的注意力缩放策略,以管理与其 200 万 token 容量相关的计算需求。该模型集成了绝对位置嵌入,以保持长输入中的序列顺序,确保在解码过程中保留数据依赖关系。这种结构选择支持在单次推理中处理大型技术代码库或海量文档,减少了对外部记忆检索系统的需求。
在生产环境中,该模型被应用于 Web 开发、自主智能体工作流和数学建模。其多模态能力允许直接摄取和分析视觉数据及结构化文本,从而促进自动化系统的构建,用于解析用户界面或技术图表。通过提供高容量配置,该模型可作为严苛工作负载的后端,满足大规模数据分析和技术问题解决中对高保真逻辑和精确语言生成的迫切需求。
谷歌最新一代多模态模型,在编程、数学、推理和语言理解方面拥有突破性性能。具备超大上下文窗口、原生多模态处理能力,以及极低延迟开销的思考模式。提供针对不同工作负载优化的 Pro 和 Flash 版本,其预览版在多项基准测试中展现出顶尖水平。
排名
#3
| 基准 | 分数 | 排名 |
|---|---|---|
专业知识 MMLU Pro | 0.90 | 🥈 2 |
研究生级问答 GPQA | 0.92 | 🥉 3 |
Web 开发 WebDev Arena | 1486 | ⭐ 4 |
0.55 | ⭐ 6 | |
StackUnseen ProLLM Stack Unseen | 0.86 | 6 |
0.74 | 8 | |
0.77 | 11 | |
0.82 | 14 | |
0.75 | 19 |