趋近智
参数
-
上下文长度
2.1M
模态
Multimodal
架构
Dense
许可证
Proprietary
发布日期
25 Sept 2025
训练数据截止日期
Jan 2025
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
-
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemini 2.5 Pro Max Thinking 是一款专为深度分析推理和复杂问题解决而设计的高级多模态模型。它代表了 Google 模型系列的演进,集成了透明的思考过程,在输出最终答案前会生成扩展的内部思维链。该架构设计专门针对软件工程、高等数学和科学研究等需要多步逻辑一致性的高要求任务进行了优化。通过公开其推理路径,该模型为开发人员提供了一种机制,使其能够更有效地调试和引导自主智能体及自动化工作流。
该模型采用混合专家 (MoE) 架构,在推理过程中选择性地激活专门的子网络,从而在提升智能规模的同时保持计算效率。它支持原生多模态输入空间,能够在单一统一上下文中摄取并推理包括文本、高分辨率图像、音频流和视频文件在内的多种数据类型。这种原生多模态能力确保了模型可以在不同信息格式之间保持语义连贯性,使其在全面数据集分析和跨模态推理方面表现卓越。
该模型的一个核心特性是其海量的上下文窗口,支持高达 2,097,152 个 Token,能够处理整个代码库、冗长的技术手册或数小时的视频内容。为了权衡推理深度与执行速度,该模型支持可配置的“思考预算”,允许开发人员为推理阶段分配特定的 Token 限制。该控制机制通过 Gemini API 和 Vertex AI 开放,提供了一个灵活的框架,可根据具体的业务需求和延迟约束来定制模型行为。
Google 的先进多模态模型,具备对文本、图像、音频和视频的原生理解能力。拥有高达 210 万 token 的海量上下文窗口,支持处理复杂推理的“最大思考模式”(max thinking modes),并针对不同的性能与成本权衡提供了多种优化变体。包含 Pro、Flash 和 Flash Lite 版本,支持可配置的思考能力,以实现透明的推理过程。
排名
#47
| 基准 | 分数 | 排名 |
|---|---|---|
0.83 | 🥉 3 | |
StackUnseen ProLLM Stack Unseen | 0.83 | 10 |
0.76 | 20 | |
0.71 | 27 | |
通用文本 Text Arena | 1449 | 30 |
0.52 | 34 | |
0.33 | 39 | |
0.68 | 40 |
APX AI
在线