趋近智
参数
-
上下文长度
1.05M
模态
Multimodal
架构
Dense
许可证
Proprietary
发布日期
5 Jun 2025
训练数据截止日期
Jan 2025
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
-
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemini 2.5 Flash Max Thinking 是由 Google 开发的一款高效推理模型,旨在填补低延迟推理与复杂逻辑演绎之间的空白。该模型变体基于稀疏混合专家(MoE)架构,利用动态路由机制为每个输入 token 仅激活其总参数的一个子集。这种架构选择使模型能够保持 Flash 系列特有的快速响应时间,同时支持最大思考预算,从而为复杂的数学和编程任务提供更长的推理链。
从技术角度来看,该模型集成了一个专门的“思考”阶段,在生成最终输出之前会先生成内部推理 token。这一过程由可控的思考预算参数管理,开发者可以通过调整该参数来平衡计算成本和输出质量。该模型是原生多模态的,能够在超大规模上下文窗口内处理文本、图像、音频和视频的交错序列。其底层的 Transformer 块集成了先进的训练稳定性技术和信号传播优化,确保在不同输入模态和长上下文依赖下都能表现出一致的性能。
Max Thinking 变体特别适用于需要透明中间推理步骤或任务复杂度超出标准快速推理模型能力的智能体工作流。通过允许模型为问题分配更多的认知周期,它可以在运行时有效扩展其推理能力。应用场景包括复杂的代码库分析、长篇文档中的复杂数据提取以及多步科学问题求解,同时其性价比仍高于 Gemini 2.5 生态系统中的大型 Pro 级模型。
Google 的先进多模态模型,具备对文本、图像、音频和视频的原生理解能力。拥有高达 210 万 token 的海量上下文窗口,支持处理复杂推理的“最大思考模式”(max thinking modes),并针对不同的性能与成本权衡提供了多种优化变体。包含 Pro、Flash 和 Flash Lite 版本,支持可配置的思考能力,以实现透明的推理过程。
排名
#129
| 基准 | 分数 | 排名 |
|---|---|---|
0.55 | 20 | |
0.69 | 38 | |
0.47 | 44 | |
0.45 | 46 | |
0.66 | 47 | |
0.17 | 50 |
APX AI
在线