趋近智
参数
-
上下文长度
1,048.576K
模态
Multimodal
架构
Dense
许可证
Proprietary
发布日期
8 Jan 2026
训练数据截止日期
Jan 2025
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
-
激活函数
-
维度
隐藏维度大小
-
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemini 3 Flash Preview High 是一款高性能多模态模型,旨在提供前沿水平的推理能力,同时保持 Flash 系列典型的低延迟特性。它针对大规模、高并发的生产环境进行了优化,在这些环境中,计算效率与认知深度同样至关重要。该模型引入了可配置的“thinking_level”参数,其中“High”配置允许达到最大的内部推理深度。这使得系统能够调节其内部处理链,以解决通常需要更大、更密集的架构才能处理的复杂逻辑和编程问题。
从技术角度来看,该模型采用了先进的蒸馏方法,利用较大的 Gemini 3 变体作为教师模型,将密集的推理轨迹内化到更高效的推理结构中。虽然具体参数量属于商业机密,但其架构设计旨在保持高吞吐量和低首字延迟(TTFT),同时支持超过一百万个 token 的超大上下文窗口。这种设计实现了对文本、图像、音频和视频等交错模态的原生处理,无需外部特定模态编码器带来的额外开销。
在实际应用中,Gemini 3 Flash Preview High 在智能体(agentic)工作流、长上下文数据提取以及复杂的软件工程任务中表现尤为出色。它能够在长对话中保持状态,并能在单次请求中处理长达一小时的视频或数千行代码,使其成为构建响应式智能代理的多功能工具。该模型在高阶推理能力与成本效益之间取得了平衡,使其成为构建可扩展 AI 集成服务的主要核心引擎。
谷歌最新一代多模态模型,在编程、数学、推理和语言理解方面拥有突破性性能。具备超大上下文窗口、原生多模态处理能力,以及极低延迟开销的思考模式。提供针对不同工作负载优化的 Pro 和 Flash 版本,其预览版在多项基准测试中展现出顶尖水平。
排名
#13
| 基准 | 分数 | 排名 |
|---|---|---|
专业知识 MMLU Pro | 0.89 | ⭐ 4 |
研究生级问答 GPQA | 0.904 | ⭐ 4 |
0.75 | ⭐ 8 | |
StackUnseen ProLLM Stack Unseen | 0.83 | 10 |
Web 开发 WebDev Arena | 1437 | 14 |
0.84 | 15 | |
0.75 | 24 | |
0.74 | 25 | |
0.43 | 28 |
APX AI
在线