OLMo 3 32B Base

开源

开放权重

参数

32B

上下文长度

65.536K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

25 Nov 2025

训练数据截止日期

Dec 2024

技术规格

注意力结构

Multi-Head Attention

隐藏维度大小

5120

层数

注意力头

键值头

激活函数

SwigLU

归一化

RMS Normalization

位置嵌入

Absolute Position Embedding

OLMo 3 32B Base

OLMo 3 32B Base 模型由艾伦人工智能研究所（Ai2）开发，是一款旨在推进人工智能研究透明度和可复现性的基础大语言模型。该变体拥有 320 亿个参数，是 OLMo 3 系列中更为专业化模型（包括 Instruct 和 Think 变体）的基础。其主要目的是为语言模型开发的进一步预训练、微调和实验提供一个稳健、开放且可审计的平台。该模型的完整生命周期，包括训练数据、代码、检查点、日志和评估方法，均已公开，以促进对模型行为的深入理解并助力科学探索。

在架构上，OLMo 3 32B Base 是一个稠密（dense）的仅解码器（decoder-only）Transformer。它配置了 64 层，隐藏层维度大小为 5120。注意力机制采用了分组查询注意力（GQA），具有 40 个注意力头和 8 个键值（KV）头，这有助于高效管理键值缓存。该模型还采用了混合注意力模式，在大多数层中使用滑动窗口注意力，并在每四层中包含一层全序列注意力，以平衡局部和全局上下文的处理。带有 YaRN 风格缩放的旋转位置嵌入（RoPE）将模型的有效上下文长度扩展至 65,536 个标记。归一化使用 RMSNorm 实现，MLP 块内的激活函数采用 GeGLU/SwiGLU 风格，从而提高了参数效率。训练过程利用 Flash Attention 来提升计算效率。

OLMo 3 32B Base 在来自 Dolma 3 数据集的约 5.9 万亿个标记上进行了预训练，经历了分阶段的训练方案，包括通用预训练、针对性数据的中期训练（mid-training）以及上下文扩展阶段。这种系统化的方法为其在编程、阅读理解和数学解题等领域的能力奠定了坚实基础。该模型在扩展的上下文长度下仍能保持其性能，为开发专门的下游应用提供了通用的基础。其开发产物的全面开放性允许研究人员和开发人员对模型进行检查、审计和扩展，支持从持续预训练到针对性微调以及强化学习设置的各种应用。

关于 OLMo 3

OLMo (Open Language Model) 是由艾伦人工智能研究所 (Ai2) 发布的一系列完全开放的语言模型，旨在推动语言模型科学的研究。OLMo 3 提供了对训练数据 (Dolma 3)、代码、检查点 (checkpoints)、日志和评估方法的完整访问权限。该系列模型包括用于预训练研究的 Base 基础模型、用于对话和工具调用的 Instruct 指令变体，以及具备思维链 (chain-of-thought) 推理能力的 Think 思考变体。所有模型均采用阶段式训练方法，包括预训练、中段训练 (mid-training) 和长上下文阶段。

其他 OLMo 3 模型

评估基准

没有可用的 OLMo 3 32B Base 评估基准。

排名

编程排名

模型透明度

总分

B+

88 / 100

上游

27.0 / 30

模型

34.5 / 40

下游

26.0 / 30

GPU 要求

完整计算器

量化

选择模型权重的量化方法

上下文大小：1024 个令牌

32k

64k

所需显存:

资源

官方文档发布说明阅读论文下载权重源代码

OLMo 3 32B Base

技术规格

OLMo 3 32B Base

关于 OLMo 3

其他 OLMo 3 模型

评估基准

排名

模型透明度

GPU 要求

所需显存:

推荐 GPU

资源