趋近智
参数
7B
上下文长度
65.536K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
25 Oct 2025
训练数据截止日期
Dec 2024
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
32
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
500,000
滑动窗口注意力
Yes
滑动窗口大小
4,096
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
11,008
多 Token 预测头数
-
分词器
词汇量大小
100,278
OLMo 3 7B Think 模型是艾伦人工智能研究所 (Ai2) 开发的 OLMo 3 系列中的一个专门变体。该模型旨在通过使其推理过程透明化,解决需要多步逻辑推理的复杂问题。它被设计用于呈现中间思考步骤,为研究人员和开发人员提供显式的思考标记 (thinking tokens),以便在得出最终答案之前检查模型的内部思考过程。这种能力增强了人工智能系统的可解释性与可审计性。
在架构上,OLMo 3 7B Think 是一种采用稠密架构的 Transformer 类自回归语言模型,包含 70 亿个参数。它利用多头注意力机制,并结合了带缩放的旋转位置嵌入 (RoPE),以支持高达 65,536 个 token 的扩展上下文长度。该模型的训练采用了多阶段方法:首先在全面的 Dolma 3 数据集上进行预训练,随后在自定义的 Dolci-Think 数据集上通过有监督微调 (SFT)、直接偏好优化 (DPO) 和基于可验证奖励的强化学习 (RLVR) 进行后训练。这种分层训练专注于赋予模型强大的推理技能(特别是在数学和编程等领域),同时确保模型的“思考过程”是显式生成的。
该变体针对推理密集型任务进行了优化,为学术研究和需要透明化问题解决过程的实际自然语言处理 (NLP) 工作流提供了坚实的基础。其设计实现了高效且可检查的推理能力,使得在配置较低的硬件上也能运行先进的 AI。OLMo 项目保持完全透明,在 Apache 2.0 许可证下发布了所有训练数据、代码、检查点及相关训练细节,这促进了模型开发与行为的可复现性,并推动了进一步的科学探究。
OLMo (Open Language Model) 是由艾伦人工智能研究所 (Ai2) 发布的一系列完全开放的语言模型,旨在推动语言模型科学的研究。OLMo 3 提供了对训练数据 (Dolma 3)、代码、检查点 (checkpoints)、日志和评估方法的完整访问权限。该系列模型包括用于预训练研究的 Base 基础模型、用于对话和工具调用的 Instruct 指令变体,以及具备思维链 (chain-of-thought) 推理能力的 Think 思考变体。所有模型均采用阶段式训练方法,包括预训练、中段训练 (mid-training) 和长上下文阶段。
没有可用的 OLMo 3 7B Think 评估基准。
APX AI
在线