Gemini 2.5 Flash Lite Max Thinking (2025-06-17)

闭源

封闭权重

参数

上下文长度

1.05M

模态

Multimodal

架构

Dense

许可证

Proprietary

发布日期

17 Jun 2025

训练数据截止日期

Dec 2024

评估基准

排名

#139

基准	分数	排名
数据分析 LiveBench Data Analysis	0.47	45
编程 LiveBench Coding	0.66	46
推理 LiveBench Reasoning	0.43	48
数学 LiveBench Mathematics	0.61	50
智能编程 LiveBench Agentic	0.05	56

排名

#139

编程排名

#105

关于 Gemini 2.5 Flash Lite Max Thinking (2025-06-17)

Gemini 2.5 Flash Lite Max Thinking 代表了 Gemini 2.5 系列中轻量级 Flash Lite 变体的一种专业化配置。该模型旨在平衡极高的成本效益与 2.5 架构固有的先进推理能力。通过利用可配置的“思考”预算，模型可以在生成最终响应之前进行多轮推理，以解决复杂的逻辑约束。这种架构灵活性允许开发人员根据任务的具体需求调整计算强度，使其非常适合既需要逻辑透明度、又必须保持低运营成本的高吞吐量流水线。

在技术层面，该模型基于针对低延迟推理和高吞吐量优化的稠密 Transformer 架构。它支持高达 100 万个 token 的超大上下文窗口，能够摄取和处理海量数据集，例如完整的代码库、冗长的技术手册或长达数小时的音视频内容。模型的多模态特性支持原生处理包括文本、图像和音频在内的多种数据类型，而无需独立的编码器-解码器系统。这种统一的方法简化了需要跨模态推理的应用开发，例如自动视频摘要或针对不同格式的跨文档分析。

在生产环境中，Gemini 2.5 Flash Lite Max Thinking 常被部署于需要结构化输出和大规模可靠性的任务。它与 Google 原生工具集（包括 Google 搜索 Grounding 和代码执行）的集成，为构建代理式工作流（agentic workflows）提供了框架。这些工作流受益于模型能够根据外部数据源验证其内部推理的能力。对于高吞吐量分类、大规模翻译和智能路由等传统轻量级模型可能难以达到所需逻辑深度的场景，该模型表现尤为出色。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

激活函数

维度

隐藏维度大小

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

模型完整性

总分

C-

45 / 100

上游

14.0 / 30

模型

18.0 / 40

下游

13.0 / 30

资源

官方文档发布说明

关于 Gemini 2.5

Google 的先进多模态模型，具备对文本、图像、音频和视频的原生理解能力。拥有高达 210 万 token 的海量上下文窗口，支持处理复杂推理的“最大思考模式”（max thinking modes），并针对不同的性能与成本权衡提供了多种优化变体。包含 Pro、Flash 和 Flash Lite 版本，支持可配置的思考能力，以实现透明的推理过程。