OLMo 3 7B Base

开源

开放权重

参数

上下文长度

66K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

25 Oct 2025

训练数据截止日期

Dec 2024

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

16.76 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

65536 个令牌

52.28 GB VRAM

消费级

3x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

没有可用的 OLMo 3 7B Base 评估基准。

排名

编程排名

关于 OLMo 3 7B Base

OLMo 3 7B Base 是艾伦人工智能研究所（AI2）OLMo 3 系列语言模型中的基础组件，旨在推动对大语言模型的科学理解与开发。该变体拥有 70 亿个参数，并基于 Dolma 3 数据集的 5.93 万亿个 token 进行训练。OLMo 3 项目的一个核心特征是其对完全透明度的承诺，不仅公开模型权重，还提供完整的训练数据、代码、中间检查点（checkpoints）、日志以及评估方法论。这种方法促进了可复现性，并支持对模型行为和开发过程的深入研究。

在架构上，OLMo 3 7B Base 模型是一个稠密（dense）、仅解码器（decoder-only）的 Transformer 模型。其训练采用了阶段化方法，包括预训练、中期训练（mid-training）和长上下文阶段，以优化多样化的语言能力和扩展的输入处理能力。该模型包含 32 层，隐藏层维度大小为 4096，并采用多头注意力机制（包含 32 个查询头和 32 个键值头）。模型集成了旋转位置嵌入（RoPE），并实现了缩放机制以支持高达 65,536 个 token 的超长上下文长度。

作为基础模型，OLMo 3 7B 主要用于预训练研究，并作为后续各种下游任务微调的坚实起点。其设计优先考虑通用能力，通过进一步的后期训练，为推理、工具使用和指令遵循等领域的专业应用奠定基础。该模型采用 Apache 2.0 协议开源授权，允许广泛使用（包括商业应用），从而促进 AI 生态系统中的社区协作与创新。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

FFN 中间层大小（稠密层）

11,008

多 Token 预测头数

分词器

词汇量大小

100,278

模型完整性

总分

93 / 100

上游

28.0 / 30

模型

37.5 / 40

下游

27.0 / 30

资源

官方文档发布说明阅读论文下载权重源代码

关于 OLMo 3

OLMo (Open Language Model) 是由艾伦人工智能研究所 (Ai2) 发布的一系列完全开放的语言模型，旨在推动语言模型科学的研究。OLMo 3 提供了对训练数据 (Dolma 3)、代码、检查点 (checkpoints)、日志和评估方法的完整访问权限。该系列模型包括用于预训练研究的 Base 基础模型、用于对话和工具调用的 Instruct 指令变体，以及具备思维链 (chain-of-thought) 推理能力的 Think 思考变体。所有模型均采用阶段式训练方法，包括预训练、中段训练 (mid-training) 和长上下文阶段。