趋近智
参数
-
上下文长度
1.05M
模态
Multimodal
架构
Dense
许可证
Proprietary
发布日期
25 Sept 2025
训练数据截止日期
Jan 2025
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
-
激活函数
-
维度
隐藏维度大小
-
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemini 2.5 Flash Max Thinking (2025-09-25) 是一款高性能多模态模型,旨在弥合轻量化执行与先进认知推理之间的差距。作为 Gemini 2.5 家族的一员,该变体通过利用原生思维架构,在生成最终响应前展示模型的内部推理过程,从而处理复杂的多步任务。此版本发布于 2025 年 9 月,在指令遵循和智能体工具使用方面进行了显著改进,使其在需要高可靠性推理密集型环境的长程任务和自动化工作流中表现尤为出色。
在技术层面上,该模型采用了针对吞吐量和效率优化的稠密 Transformer 架构。与可能为了深度而牺牲速度的标准大型模型不同,这款 Flash 变体在保持低延迟性能的同时,支持高达 105 万个 token 的海量上下文窗口。它利用多头注意力机制 (MHA) 进行序列处理,并使用绝对位置嵌入来管理其多模态输入(包括文本、图像、音频和视频)中的空间和时间关系。该架构经过专门调优,以提供思维透明度,允许开发者通过 API 参数监控和分配推理 token 预算,从而在不产生大型私有模型典型开销的情况下,确保输出的可解释性。
在功能方面,Gemini 2.5 Flash Max Thinking 为需要平衡成本效益与智能水平的开发者进行了优化。其增强的后训练过程使其通过减少冗余并提高思维链序列的准确性,在编程、数学和科学分析方面表现卓越。该模型已集成到 Google AI 生态系统中,对函数调用、代码执行以及通过 Google 搜索进行的事实对齐(grounding)提供强大支持。这使其成为自动化研究摘要、复杂软件工程智能体以及同时需要速度和逻辑深度的多模态数据处理等高吞吐量应用的理想选择。
Google 的先进多模态模型,具备对文本、图像、音频和视频的原生理解能力。拥有高达 210 万 token 的海量上下文窗口,支持处理复杂推理的“最大思考模式”(max thinking modes),并针对不同的性能与成本权衡提供了多种优化变体。包含 Pro、Flash 和 Flash Lite 版本,支持可配置的思考能力,以实现透明的推理过程。
排名
#103
| 基准 | 分数 | 排名 |
|---|---|---|
0.55 | 20 | |
0.61 | 21 | |
0.75 | 30 | |
0.68 | 43 | |
0.51 | 44 | |
0.23 | 49 |
APX AI
在线