趋近智
参数
32B
上下文长度
65.536K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
25 Nov 2025
训练数据截止日期
Dec 2024
注意力结构
Multi-Head Attention
隐藏维度大小
5120
层数
64
注意力头
40
键值头
8
激活函数
SwigLU
归一化
RMS Normalization
位置嵌入
Absolute Position Embedding
OLMo 3 32B Base 模型由艾伦人工智能研究所(Ai2)开发,是一款旨在推进人工智能研究透明度和可复现性的基础大语言模型。该变体拥有 320 亿个参数,是 OLMo 3 系列中更为专业化模型(包括 Instruct 和 Think 变体)的基础。其主要目的是为语言模型开发的进一步预训练、微调和实验提供一个稳健、开放且可审计的平台。该模型的完整生命周期,包括训练数据、代码、检查点、日志和评估方法,均已公开,以促进对模型行为的深入理解并助力科学探索。
在架构上,OLMo 3 32B Base 是一个稠密(dense)的仅解码器(decoder-only)Transformer。它配置了 64 层,隐藏层维度大小为 5120。注意力机制采用了分组查询注意力(GQA),具有 40 个注意力头和 8 个键值(KV)头,这有助于高效管理键值缓存。该模型还采用了混合注意力模式,在大多数层中使用滑动窗口注意力,并在每四层中包含一层全序列注意力,以平衡局部和全局上下文的处理。带有 YaRN 风格缩放的旋转位置嵌入(RoPE)将模型的有效上下文长度扩展至 65,536 个标记。归一化使用 RMSNorm 实现,MLP 块内的激活函数采用 GeGLU/SwiGLU 风格,从而提高了参数效率。训练过程利用 Flash Attention 来提升计算效率。
OLMo 3 32B Base 在来自 Dolma 3 数据集的约 5.9 万亿个标记上进行了预训练,经历了分阶段的训练方案,包括通用预训练、针对性数据的中期训练(mid-training)以及上下文扩展阶段。这种系统化的方法为其在编程、阅读理解和数学解题等领域的能力奠定了坚实基础。该模型在扩展的上下文长度下仍能保持其性能,为开发专门的下游应用提供了通用的基础。其开发产物的全面开放性允许研究人员和开发人员对模型进行检查、审计和扩展,支持从持续预训练到针对性微调以及强化学习设置的各种应用。
OLMo (Open Language Model) 是由艾伦人工智能研究所 (Ai2) 发布的一系列完全开放的语言模型,旨在推动语言模型科学的研究。OLMo 3 提供了对训练数据 (Dolma 3)、代码、检查点 (checkpoints)、日志和评估方法的完整访问权限。该系列模型包括用于预训练研究的 Base 基础模型、用于对话和工具调用的 Instruct 指令变体,以及具备思维链 (chain-of-thought) 推理能力的 Think 思考变体。所有模型均采用阶段式训练方法,包括预训练、中段训练 (mid-training) 和长上下文阶段。
没有可用的 OLMo 3 32B Base 评估基准。