ApX 标志ApX 标志

趋近智

OLMo 3 7B Base

参数

7B

上下文长度

66K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

25 Oct 2025

训练数据截止日期

Dec 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

32

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

11,008

多 Token 预测头数

-

分词器

词汇量大小

100,278

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 66K · Vocab: 100.3kx 32 layersRMSNormPre-AttentionMulti-Head Attention32Q / 32KV heads · SW: 4.1kHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 11k+Final RMSNormOutput Logits

OLMo 3 7B Base

OLMo 3 7B Base 是艾伦人工智能研究所(AI2)OLMo 3 系列语言模型中的基础组件,旨在推动对大语言模型的科学理解与开发。该变体拥有 70 亿个参数,并基于 Dolma 3 数据集的 5.93 万亿个 token 进行训练。OLMo 3 项目的一个核心特征是其对完全透明度的承诺,不仅公开模型权重,还提供完整的训练数据、代码、中间检查点(checkpoints)、日志以及评估方法论。这种方法促进了可复现性,并支持对模型行为和开发过程的深入研究。

在架构上,OLMo 3 7B Base 模型是一个稠密(dense)、仅解码器(decoder-only)的 Transformer 模型。其训练采用了阶段化方法,包括预训练、中期训练(mid-training)和长上下文阶段,以优化多样化的语言能力和扩展的输入处理能力。该模型包含 32 层,隐藏层维度大小为 4096,并采用多头注意力机制(包含 32 个查询头和 32 个键值头)。模型集成了旋转位置嵌入(RoPE),并实现了缩放机制以支持高达 65,536 个 token 的超长上下文长度。

作为基础模型,OLMo 3 7B 主要用于预训练研究,并作为后续各种下游任务微调的坚实起点。其设计优先考虑通用能力,通过进一步的后期训练,为推理、工具使用和指令遵循等领域的专业应用奠定基础。该模型采用 Apache 2.0 协议开源授权,允许广泛使用(包括商业应用),从而促进 AI 生态系统中的社区协作与创新。

关于 OLMo 3

OLMo (Open Language Model) 是由艾伦人工智能研究所 (Ai2) 发布的一系列完全开放的语言模型,旨在推动语言模型科学的研究。OLMo 3 提供了对训练数据 (Dolma 3)、代码、检查点 (checkpoints)、日志和评估方法的完整访问权限。该系列模型包括用于预训练研究的 Base 基础模型、用于对话和工具调用的 Instruct 指令变体,以及具备思维链 (chain-of-thought) 推理能力的 Think 思考变体。所有模型均采用阶段式训练方法,包括预训练、中段训练 (mid-training) 和长上下文阶段。


其他 OLMo 3 模型

评估基准

没有可用的 OLMo 3 7B Base 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

A

93 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
32k
64k

所需显存:

推荐 GPU