ApX 标志ApX 标志

趋近智

Phi-4 Reasoning Plus

参数

14B

上下文长度

33K

模态

Text

架构

Dense

许可证

MIT

发布日期

30 Apr 2025

训练数据截止日期

Mar 2025

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

31.12 GB VRAM

消费级

2x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

32768 个令牌

37.95 GB VRAM

消费级

2x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 5.1k · Context: 33K · Vocab: 100.4kx 40 layersRMSNormPre-AttentionMulti-Head Attention40Q / 10KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 17.9k+Final RMSNormOutput Logits

评估基准

排名

#149

基准分数排名

专业知识

MMLU Pro

0.76

60

排名

排名

#149

编程排名

-

关于 Phi-4 Reasoning Plus

Phi-4 Reasoning Plus 是由微软开发的一款拥有 140 亿参数的语言模型,旨在提供高级思维链(CoT)处理和高精度逻辑推理。作为 Phi-4 系列中的增强变体,它被设计用于解决数学、科学探究和复杂代码生成等领域的深度问题。该模型能够产生结构化输出,其中包括显式的推理轨迹以及最终解决方案,从而提升了其决策过程的透明度。在彻底性比即时响应速度更为关键的任务中,这种设计优先保证了输出的质量与深度。

在技术架构上,该模型采用了带有多头注意力机制(MHA)的稠密、仅解码器(decoder-only)Transformer 架构。它集成了旋转位置嵌入(RoPE)和 32,768 个 token 的扩展上下文窗口,使其能够在多步推理所需的冗长序列中保持连贯性。其训练方法代表了以数据为中心的 AI 领域的重大进步,首先在超过 140 万条思维链轨迹上进行有监督微调(SFT),随后利用组相对策略优化(GRPO)算法进行强化学习。这一强化学习阶段专门针对可验证的数学和逻辑问题,精炼了模型自我纠错和探索替代方案的能力。

在运行特性方面,Phi-4 Reasoning Plus 的 token 生成量较标准 Phi-4 模型有显著增加,因为“Plus”变体通常会多生成 50% 的 token 以提供更详尽的解释。虽然这导致了更高的延迟,但它使模型在专业基准测试中能够媲美规模大得多的系统。该模型以 MIT 许可证发布并开放权重,使其能够在计算资源受限但需要高保真推理的消费级硬件和本地环境中轻松部署。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

40

键值头

10

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

500,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

40

FFN 中间层大小(稠密层)

17,920

多 Token 预测头数

-

分词器

词汇量大小

100,352

模型完整性

总分

B+

80 / 100

关于 Phi-4

微软 Phi-4 模型系列由小型语言模型组成,优先关注高效且强大的推理能力。其开发强调严谨的数据质量和先进的合成数据集成。这种方法显著提升了性能,并增强了端侧部署能力。


其他 Phi-4 模型