ApX 标志ApX 标志

趋近智

Phi-2

参数

2.7B

上下文长度

2.048K

模态

Text

架构

Dense

许可证

MIT License

发布日期

12 Oct 2023

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

32

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

Layer Normalization

激活函数

GELU

维度

隐藏维度大小

2,048

层数

32

FFN 中间层大小(稠密层)

10,240

多 Token 预测头数

-

分词器

词汇量大小

51,200

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2k · Context: 2k · Vocab: 51.2kx 32 layersLayerNormPre-AttentionMulti-Head Attention32Q / 32KV headsHead dim: 64+LayerNormPre-FFNFeed-Forward NetworkGELUIntermediate: 10.2k+Final LayerNormOutput Logits

Phi-2

Microsoft Phi-2 是一款拥有 27 亿参数的小型语言模型 (SLM),体现了微软研究院在开发紧凑规模高性能模型方面的持续努力。该模型旨在促进语言理解和推理研究,同时强调效率和可访问性。其发布的一个核心目标是为研究界提供一个不受限制的小型模型,用于研究关键的安全挑战,包括缓解毒性和分析 AI 系统中的社会偏见。

Phi-2 的架构基础是基于 Transformer 的设计,采用了下一个词预测(next-word prediction)目标。其训练方法优先考虑数据质量,使用了由合成数据和经过严格筛选的网络数据组成的 1.4 万亿标记 (token) 的海量语料库。合成数据部分利用 GPT-3.5 和 GPT-4 等先进模型生成,专注于“教材级质量”的内容,以赋予模型强大的常识推理、通用知识以及科学等特定领域的专业理解。网络数据经过了严格过滤,以确保高教育价值和内容完整性。Phi-2 的训练过程历时 14 天,利用了包含 96 个 A100 GPU 的集群,并整合了 Flash Attention 等技术。值得注意的是,Phi-2 是一个基座模型,尚未通过来自人类反馈的强化学习 (RLHF) 或显式的指令微调进行对齐,但在处理毒性和偏见方面表现出了良好的行为。

Phi-2 的性能特征使其成为处理各种自然语言处理应用(包括问答、对话式 AI 和代码生成)的高效工具。其紧凑的参数量使其适合在消费级 GPU 上部署,从而实现高效推理。该模型展示了强大的推理和语言理解能力,在特定基准测试中的表现通常与更大规模的模型相当甚至更优。其设计有助于在机械可解释性(mechanistic interpretability)和微调实验等领域进行探索,对于旨在利用资源高效型语言模型进行创新的研究人员和开发者而言,它是一项宝贵的资源。

关于 Phi-2

微软的 Phi-2 是一个拥有 27 亿参数的 Transformer 架构模型,专为高效的语言理解和推理而开发。其技术创新包括使用“教科书级质量”的合成数据和筛选后的网络数据进行训练,并结合了其前身 Phi-1.5 的规模化知识迁移,从而在紧凑的架构中实现了涌现能力。


其他 Phi-2 模型
  • 没有相关模型

评估基准

没有可用的 Phi-2 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

70 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
1k
2k

所需显存:

推荐 GPU