ApX 标志ApX 标志

趋近智

OLMo 3.1 32B Instruct

参数

32B

上下文长度

65.536K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

12 Dec 2025

训练数据截止日期

Dec 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

40

键值头

8

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

64

FFN 中间层大小(稠密层)

27,648

多 Token 预测头数

-

分词器

词汇量大小

100,278

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 5.1k · Context: 65.5k · Vocab: 100.3kx 64 layersRMSNormPre-AttentionMulti-Head Attention40Q / 8KV heads · SW: 4.1kHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 27.6k+Final RMSNormOutput Logits

OLMo 3.1 32B Instruct

OLMo 3.1 32B Instruct 是由艾伦人工智能研究所 (AI2) 开发的大语言模型,旨在通过全面的透明度促进语言模型的开放研究。该变体专门经过指令微调,适用于对话式人工智能、智能体应用以及工具调用场景。它是 OLMo 家族的一次演进,将精炼的指令微调方法应用于更大的参数量,以增强其在复杂交互任务中的能力。该模型的开发强调开放科学方法,提供了对其训练数据、代码和中间检查点的访问,从而允许在研究工作中进行详细审查和重现。

在架构上,OLMo 3.1 32B Instruct 是一个仅解码器(Decoder-only)的 Transformer 模型,这是自回归语言生成中经常采用的设计。该模型结合了分组查询注意力 (GQA),包含 40 个注意力头和 8 个键值头,通过减少 KV 缓存的内存占用有助于实现高效推理。位置编码由采用 YaRN 缩放的旋转位置嵌入 (RoPE) 处理,使模型能够有效处理长达 65,536 个标记 (tokens) 的长输入序列。该模型在其前馈网络中采用了 SwiGLU 风格的激活函数,并利用 RMSNorm 进行归一化,这些架构选择在高性能语言模型中非常常见,旨在提高稳定性和效率。

OLMo 3.1 32B Instruct 的主要目的是为指令遵循任务、多轮对话和外部工具集成提供稳健的基础。其训练涉及在 Dolci-Instruct 数据集上进行的有监督微调 (SFT)、直接偏好优化 (DPO) 以及基于可验证奖励的强化学习 (RLVR)。这一多阶段训练后流水线旨在提高模型解释和执行复杂指令的能力,从而增强其在需要精确控制和交互能力的应用程序中的效用。该模型的完全开放性扩展了其对研究人员的实用价值,有助于研究模型行为、数据影响以及各种训练范式的有效性。

关于 OLMo 3

OLMo (Open Language Model) 是由艾伦人工智能研究所 (Ai2) 发布的一系列完全开放的语言模型,旨在推动语言模型科学的研究。OLMo 3 提供了对训练数据 (Dolma 3)、代码、检查点 (checkpoints)、日志和评估方法的完整访问权限。该系列模型包括用于预训练研究的 Base 基础模型、用于对话和工具调用的 Instruct 指令变体,以及具备思维链 (chain-of-thought) 推理能力的 Think 思考变体。所有模型均采用阶段式训练方法,包括预训练、中段训练 (mid-training) 和长上下文阶段。


其他 OLMo 3 模型

评估基准

排名

#83

基准分数排名

Web 开发

WebDev Arena

1331

47

排名

排名

#83

编程排名

#58

模型完整性

总分

B+

85 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
32k
64k

所需显存:

推荐 GPU