趋近智
参数
32B
上下文长度
66K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
12 Dec 2025
训练数据截止日期
Dec 2024
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
4x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
65536 个令牌
消费级
4x RTX 4090
24GB VRAM
数据中心
2x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
排名
#123
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1285 | 82 |
通用文本 Text Arena | 1285 | 88 |
排名
#123
编程排名
#91
OLMo 3.1 32B Think 是由艾伦人工智能研究所(Allen Institute for AI)开发的大规模自回归语言模型,专为在复杂推理和多步逻辑方面表现出色而设计。作为 OLMo 3.1 系列的一部分,该变体代表了该项目对开放科学承诺的重大演进,提供了一个包含模型权重、训练代码和底层数据的端到端透明流水线。该模型针对需要长链思维(CoT)的任务进行了优化,特别是在数学和编程领域,它利用专门的后训练在得出最终解决方案之前生成详细且可验证的逻辑步骤。
OLMo 3.1 32B Think 基于仅解码器(decoder-only)的 Transformer 架构,采用 64 层,隐藏维度为 5120,并结合了架构改进以平衡高性能与计算效率。它采用了分组查询注意力(GQA)机制,配置有 40 个查询头和 8 个键值头,这种配置显著减少了键值(KV)缓存的内存占用,并实现了高效推理。该模型使用 SwiGLU 激活函数和 RMSNorm 以确保稳定的训练动态。在位置编码方面,它实现了带有 YaRN 风格缩放的旋转位置嵌入(RoPE),支持高达 65,536 个 token 的超大上下文窗口。
该模型的训练方案涉及一个复杂的多阶段过程,首先在拥有 9.3 万亿 token 的 Dolma 3 数据集上进行预训练,随后在更高质量的推理数据上进行中段训练。Think 变体通过有监督微调(SFT)和使用 Dolci-Think-RL 数据集的基于可验证奖励的强化学习(RLVR)得到进一步完善。这一专门的强化学习阶段旨在培养持久的内部推理能力,使模型能够通过探索多条逻辑路径来解决复杂问题。由于该模型是在 Apache 2.0 许可证下发布的,并提供对训练配方和数据溯源工具的完全访问权限,它为研究人员和开发人员构建可审计的人工智能系统提供了透明的基础。
注意力
注意力结构
Multi-Head Attention
注意力头
40
键值头
8
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
500,000
滑动窗口注意力
Yes
滑动窗口大小
4,096
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
5,120
层数
64
FFN 中间层大小(稠密层)
27,648
多 Token 预测头数
-
分词器
词汇量大小
100,278
OLMo (Open Language Model) 是由艾伦人工智能研究所 (Ai2) 发布的一系列完全开放的语言模型,旨在推动语言模型科学的研究。OLMo 3 提供了对训练数据 (Dolma 3)、代码、检查点 (checkpoints)、日志和评估方法的完整访问权限。该系列模型包括用于预训练研究的 Base 基础模型、用于对话和工具调用的 Instruct 指令变体,以及具备思维链 (chain-of-thought) 推理能力的 Think 思考变体。所有模型均采用阶段式训练方法,包括预训练、中段训练 (mid-training) 和长上下文阶段。
APX AI
在线