Gemini 2.5 Flash Max Thinking (2025-06-05)

闭源

封闭权重

参数

上下文长度

1.05M

模态

Multimodal

架构

Dense

许可证

Proprietary

发布日期

5 Jun 2025

训练数据截止日期

Jan 2025

评估基准

排名

#129

基准	分数	排名
编程 Aider Coding	0.55	20
数学 LiveBench Mathematics	0.69	38
数据分析 LiveBench Data Analysis	0.47	44
推理 LiveBench Reasoning	0.45	46
编程 LiveBench Coding	0.66	47
智能编程 LiveBench Agentic	0.17	50

排名

#129

编程排名

#106

关于 Gemini 2.5 Flash Max Thinking (2025-06-05)

Gemini 2.5 Flash Max Thinking 是由 Google 开发的一款高效推理模型，旨在填补低延迟推理与复杂逻辑演绎之间的空白。该模型变体基于稀疏混合专家（MoE）架构，利用动态路由机制为每个输入 token 仅激活其总参数的一个子集。这种架构选择使模型能够保持 Flash 系列特有的快速响应时间，同时支持最大思考预算，从而为复杂的数学和编程任务提供更长的推理链。

从技术角度来看，该模型集成了一个专门的“思考”阶段，在生成最终输出之前会先生成内部推理 token。这一过程由可控的思考预算参数管理，开发者可以通过调整该参数来平衡计算成本和输出质量。该模型是原生多模态的，能够在超大规模上下文窗口内处理文本、图像、音频和视频的交错序列。其底层的 Transformer 块集成了先进的训练稳定性技术和信号传播优化，确保在不同输入模态和长上下文依赖下都能表现出一致的性能。

Max Thinking 变体特别适用于需要透明中间推理步骤或任务复杂度超出标准快速推理模型能力的智能体工作流。通过允许模型为问题分配更多的认知周期，它可以在运行时有效扩展其推理能力。应用场景包括复杂的代码库分析、长篇文档中的复杂数据提取以及多步科学问题求解，同时其性价比仍高于 Gemini 2.5 生态系统中的大型 Pro 级模型。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

模型完整性

总分

C+

53 / 100

上游

17.0 / 30

模型

21.0 / 40

下游

15.0 / 30

资源

官方文档

关于 Gemini 2.5

Google 的先进多模态模型，具备对文本、图像、音频和视频的原生理解能力。拥有高达 210 万 token 的海量上下文窗口，支持处理复杂推理的“最大思考模式”（max thinking modes），并针对不同的性能与成本权衡提供了多种优化变体。包含 Pro、Flash 和 Flash Lite 版本，支持可配置的思考能力，以实现透明的推理过程。