ApX 标志ApX 标志

趋近智

OLMo 3.1 32B Think

参数

32B

上下文长度

66K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

12 Dec 2025

训练数据截止日期

Dec 2024

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

68.98 GB VRAM

消费级

4x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

65536 个令牌

86.74 GB VRAM

消费级

4x RTX 4090

24GB VRAM

数据中心

2x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 5.1k · Context: 66K · Vocab: 100.3kx 64 layersRMSNormPre-AttentionMulti-Head Attention40Q / 8KV heads · SW: 4.1kHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 27.6k+Final RMSNormOutput Logits

评估基准

排名

#123

基准分数排名

Web 开发

WebDev Arena

1285

82

通用文本

Text Arena

1285

88

排名

排名

#123

编程排名

#91

关于 OLMo 3.1 32B Think

OLMo 3.1 32B Think 是由艾伦人工智能研究所(Allen Institute for AI)开发的大规模自回归语言模型,专为在复杂推理和多步逻辑方面表现出色而设计。作为 OLMo 3.1 系列的一部分,该变体代表了该项目对开放科学承诺的重大演进,提供了一个包含模型权重、训练代码和底层数据的端到端透明流水线。该模型针对需要长链思维(CoT)的任务进行了优化,特别是在数学和编程领域,它利用专门的后训练在得出最终解决方案之前生成详细且可验证的逻辑步骤。

OLMo 3.1 32B Think 基于仅解码器(decoder-only)的 Transformer 架构,采用 64 层,隐藏维度为 5120,并结合了架构改进以平衡高性能与计算效率。它采用了分组查询注意力(GQA)机制,配置有 40 个查询头和 8 个键值头,这种配置显著减少了键值(KV)缓存的内存占用,并实现了高效推理。该模型使用 SwiGLU 激活函数和 RMSNorm 以确保稳定的训练动态。在位置编码方面,它实现了带有 YaRN 风格缩放的旋转位置嵌入(RoPE),支持高达 65,536 个 token 的超大上下文窗口。

该模型的训练方案涉及一个复杂的多阶段过程,首先在拥有 9.3 万亿 token 的 Dolma 3 数据集上进行预训练,随后在更高质量的推理数据上进行中段训练。Think 变体通过有监督微调(SFT)和使用 Dolci-Think-RL 数据集的基于可验证奖励的强化学习(RLVR)得到进一步完善。这一专门的强化学习阶段旨在培养持久的内部推理能力,使模型能够通过探索多条逻辑路径来解决复杂问题。由于该模型是在 Apache 2.0 许可证下发布的,并提供对训练配方和数据溯源工具的完全访问权限,它为研究人员和开发人员构建可审计的人工智能系统提供了透明的基础。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

40

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

64

FFN 中间层大小(稠密层)

27,648

多 Token 预测头数

-

分词器

词汇量大小

100,278

模型完整性

总分

B+

86 / 100

关于 OLMo 3

OLMo (Open Language Model) 是由艾伦人工智能研究所 (Ai2) 发布的一系列完全开放的语言模型,旨在推动语言模型科学的研究。OLMo 3 提供了对训练数据 (Dolma 3)、代码、检查点 (checkpoints)、日志和评估方法的完整访问权限。该系列模型包括用于预训练研究的 Base 基础模型、用于对话和工具调用的 Instruct 指令变体,以及具备思维链 (chain-of-thought) 推理能力的 Think 思考变体。所有模型均采用阶段式训练方法,包括预训练、中段训练 (mid-training) 和长上下文阶段。


其他 OLMo 3 模型
OLMo 3.1 32B Think:规格和 GPU 显存要求