趋近智
注意力结构
Multi-Head Attention
隐藏维度大小
2048
层数
24
注意力头
32
键值头
32
激活函数
GELU
归一化
-
位置嵌入
ROPE
微软的 Phi-1 是一款紧凑型、基于 Transformer 的语言模型,专门为 Python 代码生成而设计。其开发过程强调了高质量精选训练数据相较于单纯的数据量或模型规模的有效性,这一原则在基础研究论文《Textbooks Are All You Need》中得到了阐述。该模型的训练方案采用了一种独特的方法,结合了来自公共代码库并经过精心筛选的代码语言数据,以及由 GPT-3.5 等大语言模型生成的合成 Python 教科书和练习。这种数据策略旨在赋予模型对编程概念和实践的“教科书级”理解,使其尽管规模适中,也能实现稳健的学习。
Phi-1 的架构设计基于 Transformer 仅解码器(decoder-only)结构,包含 24 层,隐藏层维度为 2048,并拥有 32 个注意力头。为提高训练效率和性能而引入的关键创新包括:采用旋转位置嵌入(RoPE)来处理序列位置信息,以及使用 FlashAttention 来加速注意力计算。这种流线型架构与优化组件的结合,使 Phi-1 能够高效处理输入序列,同时保持上下文连贯性。该模型的训练专注于下一标记预测(next-token prediction),使其能够生成连贯且语法正确的 Python 代码。
Phi-1 主要设计用于根据文档字符串(docstrings)生成简单 Python 函数的任务,展示了其在代码生成应用中的实用性。其性能特征,特别是在 HumanEval 和 MBPP 等 Python 编程基准测试中的表现,表明它可以取得与规模大得多的模型相媲美的结果,凸显了高质量数据精选的影响。虽然它专门针对 Python,但其能力为理解小型语言模型在特定领域的潜力奠定了基础。
Phi-1 是微软推出的 13 亿参数、基于 Transformer 架构的基础小语言模型。该模型专注于 Python 代码生成任务。其核心创新在于使用了经过精心筛选的“教科书级别”高质量数据进行训练,这证明了即便没有庞大的参数规模,高质量的数据也能使模型具备出色的性能。
没有可用的 Phi-1 评估基准。