ApX 标志ApX 标志

趋近智

Phi-1

参数

1.3B

上下文长度

2K

模态

Text

架构

Dense

许可证

MIT

发布日期

15 Jun 2023

训练数据截止日期

-

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

4.65 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

2048 个令牌

5.08 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2k · Context: 2K · Vocab: 51.2kx 24 layersLayerNormPre-AttentionMulti-Head Attention32Q / 32KV headsHead dim: 64+LayerNormPre-FFNFeed-Forward NetworkGELUIntermediate: 8.2k+Final LayerNormOutput Logits

评估基准

没有可用的 Phi-1 评估基准。

排名

排名

-

编程排名

-

关于 Phi-1

微软的 Phi-1 是一款紧凑型、基于 Transformer 的语言模型,专门为 Python 代码生成而设计。其开发过程强调了高质量精选训练数据相较于单纯的数据量或模型规模的有效性,这一原则在基础研究论文《Textbooks Are All You Need》中得到了阐述。该模型的训练方案采用了一种独特的方法,结合了来自公共代码库并经过精心筛选的代码语言数据,以及由 GPT-3.5 等大语言模型生成的合成 Python 教科书和练习。这种数据策略旨在赋予模型对编程概念和实践的“教科书级”理解,使其尽管规模适中,也能实现稳健的学习。

Phi-1 的架构设计基于 Transformer 仅解码器(decoder-only)结构,包含 24 层,隐藏层维度为 2048,并拥有 32 个注意力头。为提高训练效率和性能而引入的关键创新包括:采用旋转位置嵌入(RoPE)来处理序列位置信息,以及使用 FlashAttention 来加速注意力计算。这种流线型架构与优化组件的结合,使 Phi-1 能够高效处理输入序列,同时保持上下文连贯性。该模型的训练专注于下一标记预测(next-token prediction),使其能够生成连贯且语法正确的 Python 代码。

Phi-1 主要设计用于根据文档字符串(docstrings)生成简单 Python 函数的任务,展示了其在代码生成应用中的实用性。其性能特征,特别是在 HumanEval 和 MBPP 等 Python 编程基准测试中的表现,表明它可以取得与规模大得多的模型相媲美的结果,凸显了高质量数据精选的影响。虽然它专门针对 Python,但其能力为理解小型语言模型在特定领域的潜力奠定了基础。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

32

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

Layer Normalization

激活函数

GELU

维度

隐藏维度大小

2,048

层数

24

FFN 中间层大小(稠密层)

8,192

多 Token 预测头数

-

分词器

词汇量大小

51,200

模型完整性

总分

B+

75 / 100

关于 Phi-1

Phi-1 是微软推出的 13 亿参数、基于 Transformer 架构的基础小语言模型。该模型专注于 Python 代码生成任务。其核心创新在于使用了经过精心筛选的“教科书级别”高质量数据进行训练,这证明了即便没有庞大的参数规模,高质量的数据也能使模型具备出色的性能。


其他 Phi-1 模型
  • 没有相关模型
Phi-1:规格和 GPU 显存要求