Gemini 2.5 Flash Lite Max Thinking (2025-09-25)

闭源

封闭权重

参数

上下文长度

1.05M

模态

Multimodal

架构

Dense

许可证

Proprietary

发布日期

25 Sept 2025

训练数据截止日期

Jan 2025

评估基准

排名

#136

基准	分数	排名
数据分析 LiveBench Data Analysis	0.48	42
专业知识 MMLU Pro	0.79	42
数学 LiveBench Mathematics	0.65	46
编程 LiveBench Coding	0.65	49
推理 LiveBench Reasoning	0.36	58
智能编程 LiveBench Agentic	0.02	58

排名

#136

编程排名

#108

关于 Gemini 2.5 Flash Lite Max Thinking (2025-09-25)

Gemini 2.5 Flash Lite Max Thinking 是由 Google DeepMind 研发的一款高吞吐量、多模态推理模型，旨在以显著降低的计算占用提供先进的认知能力。作为 Gemini 2.5 系列的一个专门变体，它集成了一种精密的“思考”模式，使模型能够在生成最终响应之前进行多轮推理和内部规划。这种架构设计使系统能够处理复杂的逻辑（如数学问题求解和多步代码生成），同时保持 Flash Lite 系列特有的低延迟特性。

该模型基于稀疏混合专家（MoE）架构构建，通过将 Token 路由至特定的专家路径，而非在每次请求时激活整个参数集，从而优化了资源利用率。这种结构效率与 100 万 Token 的超大上下文窗口相结合，支持直接摄取大规模数据集、完整代码库或长视频内容，而无需复杂的分块或检索增强生成（RAG）策略。该模型原生支持文本、图像、音频和视频等多种模态，并在统一的 Transformer 框架内处理这些异构输入。

在部署方面，该模型提供了一个灵活的“思考预算”参数，允许开发人员根据具体应用需求动态调整推理力度。这使得它在推理透明度与成本效益平衡至关重要的大规模生产环境中表现尤为出色。其主要应用场景包括大规模自动化分类、实时多语言翻译，以及需要稳定指令遵循能力和简洁准确输出的智能体工作流开发。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

模型完整性

总分

C+

56 / 100

上游

19.0 / 30

模型

23.0 / 40

下游

14.0 / 30

资源

官方文档发布说明阅读论文

关于 Gemini 2.5

Google 的先进多模态模型，具备对文本、图像、音频和视频的原生理解能力。拥有高达 210 万 token 的海量上下文窗口，支持处理复杂推理的“最大思考模式”（max thinking modes），并针对不同的性能与成本权衡提供了多种优化变体。包含 Pro、Flash 和 Flash Lite 版本，支持可配置的思考能力，以实现透明的推理过程。