OLMo 3 7B Think

开源

开放权重

参数

上下文长度

66K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

25 Oct 2025

训练数据截止日期

Dec 2024

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

16.76 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

65536 个令牌

52.28 GB VRAM

消费级

3x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

没有可用的 OLMo 3 7B Think 评估基准。

排名

编程排名

关于 OLMo 3 7B Think

OLMo 3 7B Think 模型是艾伦人工智能研究所 (Ai2) 开发的 OLMo 3 系列中的一个专门变体。该模型旨在通过使其推理过程透明化，解决需要多步逻辑推理的复杂问题。它被设计用于呈现中间思考步骤，为研究人员和开发人员提供显式的思考标记 (thinking tokens)，以便在得出最终答案之前检查模型的内部思考过程。这种能力增强了人工智能系统的可解释性与可审计性。

在架构上，OLMo 3 7B Think 是一种采用稠密架构的 Transformer 类自回归语言模型，包含 70 亿个参数。它利用多头注意力机制，并结合了带缩放的旋转位置嵌入 (RoPE)，以支持高达 65,536 个 token 的扩展上下文长度。该模型的训练采用了多阶段方法：首先在全面的 Dolma 3 数据集上进行预训练，随后在自定义的 Dolci-Think 数据集上通过有监督微调 (SFT)、直接偏好优化 (DPO) 和基于可验证奖励的强化学习 (RLVR) 进行后训练。这种分层训练专注于赋予模型强大的推理技能（特别是在数学和编程等领域），同时确保模型的“思考过程”是显式生成的。

该变体针对推理密集型任务进行了优化，为学术研究和需要透明化问题解决过程的实际自然语言处理 (NLP) 工作流提供了坚实的基础。其设计实现了高效且可检查的推理能力，使得在配置较低的硬件上也能运行先进的 AI。OLMo 项目保持完全透明，在 Apache 2.0 许可证下发布了所有训练数据、代码、检查点及相关训练细节，这促进了模型开发与行为的可复现性，并推动了进一步的科学探究。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

FFN 中间层大小（稠密层）

11,008

多 Token 预测头数

分词器

词汇量大小

100,278

模型完整性

总分

B+

84 / 100

上游

27.0 / 30

模型

31.5 / 40

下游

25.5 / 30

资源

官方文档发布说明阅读论文下载权重源代码

关于 OLMo 3

OLMo (Open Language Model) 是由艾伦人工智能研究所 (Ai2) 发布的一系列完全开放的语言模型，旨在推动语言模型科学的研究。OLMo 3 提供了对训练数据 (Dolma 3)、代码、检查点 (checkpoints)、日志和评估方法的完整访问权限。该系列模型包括用于预训练研究的 Base 基础模型、用于对话和工具调用的 Instruct 指令变体，以及具备思维链 (chain-of-thought) 推理能力的 Think 思考变体。所有模型均采用阶段式训练方法，包括预训练、中段训练 (mid-training) 和长上下文阶段。