ApX 标志ApX 标志

趋近智

Phi-4

参数

14B

上下文长度

16K

模态

Text

架构

Dense

许可证

MIT License

发布日期

13 Dec 2024

训练数据截止日期

Nov 2024

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

24

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

250,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

3,072

层数

40

FFN 中间层大小(稠密层)

17,920

多 Token 预测头数

-

分词器

词汇量大小

100,352

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 3.1k · Context: 16k · Vocab: 100.4kx 40 layersRMSNormPre-AttentionGrouped-Query Attention24Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwishIntermediate: 17.9k+Final RMSNormOutput Logits

Phi-4

Microsoft Phi-4 是一款拥有 140 亿参数的仅解码器(decoder-only)Transformer 模型,是微软小语言模型(SLM)系列中的最新迭代版本。该模型的主要目标是高效地提供先进的推理能力,使其能够在计算和内存受限的环境中部署,并适用于对延迟敏感的应用场景。Phi-4 旨在通过专注于训练数据的质量而非仅仅依靠模型规模,来处理复杂的逻辑、数学任务以及通用的语言处理。

Phi-4 在架构和训练方法论上的一个关键创新在于战略性地使用了高质量的合成数据,这些数据在其训练语料中占有很大比例。这些合成数据通过多智能体提示(multi-agent prompting)、指令反转(instruction reversal)和自我修正(self-revision)工作流等技术生成,并辅以来自网页内容、学术书籍和代码库中精心挑选的原始数据。这种方法使 Phi-4 能够获得强大的推理和解决问题的能力,往往超越了参数量更大的模型。该模型的架构保留了其前代产品 Phi-3 的类似结构,但包含了诸如扩展上下文长度等增强功能。

Phi-4 支持 16,000 个 token 的上下文长度,使其能够处理和生成广泛的长篇内容。其设计优先考虑了在逻辑演绎、代码生成和科学理解等任务中的效率和稳健性能。该模型旨在用于研究和开发,作为各种应用中生成式人工智能功能的基石,特别是在那些对资源受限或低延迟场景下的强大推理能力有需求的领域。

关于 Phi-4

微软 Phi-4 模型系列由小型语言模型组成,优先关注高效且强大的推理能力。其开发强调严谨的数据质量和先进的合成数据集成。这种方法显著提升了性能,并增强了端侧部署能力。


其他 Phi-4 模型

评估基准

排名

#123

基准分数排名

通用知识

MMLU

0.848

15

专业知识

MMLU Pro

0.7

63

Web 开发

WebDev Arena

1256

70

排名

排名

#123

编程排名

#87

模型完整性

总分

B

66 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
8k
16k

所需显存:

推荐 GPU

Phi-4:规格和 GPU 显存要求