趋近智
注意力
注意力结构
Grouped-Query Attention
注意力头
24
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
250,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
3,072
层数
40
FFN 中间层大小(稠密层)
17,920
多 Token 预测头数
-
分词器
词汇量大小
100,352
Microsoft Phi-4 是一款拥有 140 亿参数的仅解码器(decoder-only)Transformer 模型,是微软小语言模型(SLM)系列中的最新迭代版本。该模型的主要目标是高效地提供先进的推理能力,使其能够在计算和内存受限的环境中部署,并适用于对延迟敏感的应用场景。Phi-4 旨在通过专注于训练数据的质量而非仅仅依靠模型规模,来处理复杂的逻辑、数学任务以及通用的语言处理。
Phi-4 在架构和训练方法论上的一个关键创新在于战略性地使用了高质量的合成数据,这些数据在其训练语料中占有很大比例。这些合成数据通过多智能体提示(multi-agent prompting)、指令反转(instruction reversal)和自我修正(self-revision)工作流等技术生成,并辅以来自网页内容、学术书籍和代码库中精心挑选的原始数据。这种方法使 Phi-4 能够获得强大的推理和解决问题的能力,往往超越了参数量更大的模型。该模型的架构保留了其前代产品 Phi-3 的类似结构,但包含了诸如扩展上下文长度等增强功能。
Phi-4 支持 16,000 个 token 的上下文长度,使其能够处理和生成广泛的长篇内容。其设计优先考虑了在逻辑演绎、代码生成和科学理解等任务中的效率和稳健性能。该模型旨在用于研究和开发,作为各种应用中生成式人工智能功能的基石,特别是在那些对资源受限或低延迟场景下的强大推理能力有需求的领域。
微软 Phi-4 模型系列由小型语言模型组成,优先关注高效且强大的推理能力。其开发强调严谨的数据质量和先进的合成数据集成。这种方法显著提升了性能,并增强了端侧部署能力。
排名
#123
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.848 | 15 |
专业知识 MMLU Pro | 0.7 | 63 |
Web 开发 WebDev Arena | 1256 | 70 |
APX AI
在线