OLMo 3.1 32B Instruct

开源

开放权重

参数

32B

上下文长度

66K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

12 Dec 2025

训练数据截止日期

Dec 2024

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

68.98 GB VRAM

消费级

4x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

65536 个令牌

86.74 GB VRAM

消费级

4x RTX 4090

24GB VRAM

数据中心

2x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

排名

#96

基准	分数	排名
Web 开发 WebDev Arena	1331	68
通用文本 Text Arena	1330	74

排名

#96

编程排名

#76

关于 OLMo 3.1 32B Instruct

OLMo 3.1 32B Instruct 是由艾伦人工智能研究所 (AI2) 开发的大语言模型，旨在通过全面的透明度促进语言模型的开放研究。该变体专门经过指令微调，适用于对话式人工智能、智能体应用以及工具调用场景。它是 OLMo 家族的一次演进，将精炼的指令微调方法应用于更大的参数量，以增强其在复杂交互任务中的能力。该模型的开发强调开放科学方法，提供了对其训练数据、代码和中间检查点的访问，从而允许在研究工作中进行详细审查和重现。

在架构上，OLMo 3.1 32B Instruct 是一个仅解码器（Decoder-only）的 Transformer 模型，这是自回归语言生成中经常采用的设计。该模型结合了分组查询注意力 (GQA)，包含 40 个注意力头和 8 个键值头，通过减少 KV 缓存的内存占用有助于实现高效推理。位置编码由采用 YaRN 缩放的旋转位置嵌入 (RoPE) 处理，使模型能够有效处理长达 65,536 个标记 (tokens) 的长输入序列。该模型在其前馈网络中采用了 SwiGLU 风格的激活函数，并利用 RMSNorm 进行归一化，这些架构选择在高性能语言模型中非常常见，旨在提高稳定性和效率。

OLMo 3.1 32B Instruct 的主要目的是为指令遵循任务、多轮对话和外部工具集成提供稳健的基础。其训练涉及在 Dolci-Instruct 数据集上进行的有监督微调 (SFT)、直接偏好优化 (DPO) 以及基于可验证奖励的强化学习 (RLVR)。这一多阶段训练后流水线旨在提高模型解释和执行复杂指令的能力，从而增强其在需要精确控制和交互能力的应用程序中的效用。该模型的完全开放性扩展了其对研究人员的实用价值，有助于研究模型行为、数据影响以及各种训练范式的有效性。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

FFN 中间层大小（稠密层）

27,648

多 Token 预测头数

分词器

词汇量大小

100,278

模型完整性

总分

B+

85 / 100

上游

27.0 / 30

模型

33.0 / 40

下游

25.0 / 30

资源

官方文档发布说明阅读论文下载权重源代码

关于 OLMo 3

OLMo (Open Language Model) 是由艾伦人工智能研究所 (Ai2) 发布的一系列完全开放的语言模型，旨在推动语言模型科学的研究。OLMo 3 提供了对训练数据 (Dolma 3)、代码、检查点 (checkpoints)、日志和评估方法的完整访问权限。该系列模型包括用于预训练研究的 Base 基础模型、用于对话和工具调用的 Instruct 指令变体，以及具备思维链 (chain-of-thought) 推理能力的 Think 思考变体。所有模型均采用阶段式训练方法，包括预训练、中段训练 (mid-training) 和长上下文阶段。