趋近智
参数
-
上下文长度
1.05M
模态
Multimodal
架构
Dense
许可证
Proprietary
发布日期
25 Sept 2025
训练数据截止日期
Jan 2025
排名
#136
| 基准 | 分数 | 排名 |
|---|---|---|
0.48 | 42 | |
专业知识 MMLU Pro | 0.79 | 42 |
0.65 | 46 | |
0.65 | 49 | |
0.36 | 58 | |
0.02 | 58 |
排名
#136
编程排名
#108
Gemini 2.5 Flash Lite Max Thinking 是由 Google DeepMind 研发的一款高吞吐量、多模态推理模型,旨在以显著降低的计算占用提供先进的认知能力。作为 Gemini 2.5 系列的一个专门变体,它集成了一种精密的“思考”模式,使模型能够在生成最终响应之前进行多轮推理和内部规划。这种架构设计使系统能够处理复杂的逻辑(如数学问题求解和多步代码生成),同时保持 Flash Lite 系列特有的低延迟特性。
该模型基于稀疏混合专家(MoE)架构构建,通过将 Token 路由至特定的专家路径,而非在每次请求时激活整个参数集,从而优化了资源利用率。这种结构效率与 100 万 Token 的超大上下文窗口相结合,支持直接摄取大规模数据集、完整代码库或长视频内容,而无需复杂的分块或检索增强生成(RAG)策略。该模型原生支持文本、图像、音频和视频等多种模态,并在统一的 Transformer 框架内处理这些异构输入。
在部署方面,该模型提供了一个灵活的“思考预算”参数,允许开发人员根据具体应用需求动态调整推理力度。这使得它在推理透明度与成本效益平衡至关重要的大规模生产环境中表现尤为出色。其主要应用场景包括大规模自动化分类、实时多语言翻译,以及需要稳定指令遵循能力和简洁准确输出的智能体工作流开发。
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
-
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Google 的先进多模态模型,具备对文本、图像、音频和视频的原生理解能力。拥有高达 210 万 token 的海量上下文窗口,支持处理复杂推理的“最大思考模式”(max thinking modes),并针对不同的性能与成本权衡提供了多种优化变体。包含 Pro、Flash 和 Flash Lite 版本,支持可配置的思考能力,以实现透明的推理过程。
APX AI
在线