趋近智
参数
-
上下文长度
1,048.576K
模态
Multimodal
架构
Dense
许可证
Proprietary
发布日期
17 Jun 2025
训练数据截止日期
Dec 2024
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
-
激活函数
-
维度
隐藏维度大小
-
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Gemini 2.5 Flash Lite Max Thinking 代表了 Gemini 2.5 系列中轻量级 Flash Lite 变体的一种专业化配置。该模型旨在平衡极高的成本效益与 2.5 架构固有的先进推理能力。通过利用可配置的“思考”预算,模型可以在生成最终响应之前进行多轮推理,以解决复杂的逻辑约束。这种架构灵活性允许开发人员根据任务的具体需求调整计算强度,使其非常适合既需要逻辑透明度、又必须保持低运营成本的高吞吐量流水线。
在技术层面,该模型基于针对低延迟推理和高吞吐量优化的稠密 Transformer 架构。它支持高达 100 万个 token 的超大上下文窗口,能够摄取和处理海量数据集,例如完整的代码库、冗长的技术手册或长达数小时的音视频内容。模型的多模态特性支持原生处理包括文本、图像和音频在内的多种数据类型,而无需独立的编码器-解码器系统。这种统一的方法简化了需要跨模态推理的应用开发,例如自动视频摘要或针对不同格式的跨文档分析。
在生产环境中,Gemini 2.5 Flash Lite Max Thinking 常被部署于需要结构化输出和大规模可靠性的任务。它与 Google 原生工具集(包括 Google 搜索 Grounding 和代码执行)的集成,为构建代理式工作流(agentic workflows)提供了框架。这些工作流受益于模型能够根据外部数据源验证其内部推理的能力。对于高吞吐量分类、大规模翻译和智能路由等传统轻量级模型可能难以达到所需逻辑深度的场景,该模型表现尤为出色。
Google 的先进多模态模型,具备对文本、图像、音频和视频的原生理解能力。拥有高达 210 万 token 的海量上下文窗口,支持处理复杂推理的“最大思考模式”(max thinking modes),并针对不同的性能与成本权衡提供了多种优化变体。包含 Pro、Flash 和 Flash Lite 版本,支持可配置的思考能力,以实现透明的推理过程。
排名
#137
| 基准 | 分数 | 排名 |
|---|---|---|
0.66 | 45 | |
0.47 | 45 | |
0.43 | 47 | |
0.61 | 50 | |
0.05 | 56 |
APX AI
在线