ApX 标志ApX 标志

趋近智

Phi-1.5

参数

1.3B

上下文长度

2K

模态

Text

架构

Dense

许可证

MIT

发布日期

10 Sept 2023

训练数据截止日期

-

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

4.65 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

2048 个令牌

5.08 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 2k · Context: 2K · Vocab: 51.2kx 24 layersRMSNormPre-AttentionMulti-Head Attention32Q / 32KV headsHead dim: 64+RMSNormPre-FFNFeed-Forward NetworkGELUIntermediate: 8.2k+Final RMSNormOutput Logits

评估基准

没有可用的 Phi-1.5 评估基准。

排名

排名

-

编程排名

-

关于 Phi-1.5

微软的 Phi-1.5 是一款基于 Transformer 架构的语言模型,包含 13 亿个参数。该模型的开发旨在继续探索小型语言模型的能力,特别关注自然语言语境下的常识推理和通用知识。模型的设计目标是为研究社区提供一个无限制且易于访问的模型,以探索与大语言模型相关的挑战,例如降低毒性和增强可控性。

Phi-1.5 的架构与其前代产品 Phi-1 保持一致,采用了仅解码器(decoder-only)的 Transformer 配置。该架构包含 24 层,拥有 32 个注意力头,每个头的维度为 64。模型集成了旋转位置嵌入(RoPE)进行位置编码,使用的旋转维度为 32,并利用 Flash Attention 来提高训练速度和内存效率。Phi-1.5 开发过程中的一项关键创新在于其训练方法,主要使用高质量、合成的“教科书式”数据集。该数据集总计 300 亿个 token,其中包括来自 Phi-1 训练数据的 70 亿个 token,以及约 200 亿个新生成的合成 token,主要用于传授常识推理和广泛的知识。

Phi-1.5 在各种自然语言处理任务中展现出了出色的能力,包括文本生成、问答和 Python 代码生成。尽管它是一个基础模型,未经过针对指令遵循的特定微调,也没有通过人类反馈强化学习(RLHF)进行优化,但它能够以问答和聊天等格式生成相关的响应。其紧凑的模型规模和专门的训练方案使其能够执行复杂的推理任务,使其成为研究上下文学习(in-context learning)和解决模型局限性等领域的有力工具。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

32

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

GELU

维度

隐藏维度大小

2,048

层数

24

FFN 中间层大小(稠密层)

8,192

多 Token 预测头数

-

分词器

词汇量大小

51,200

模型完整性

总分

B+

73 / 100

关于 Phi-1.5

微软的 Phi-1.5 是一个拥有 13 亿参数的 Transformer 模型,是 Phi-1 的后续版本。该模型在经过筛选的、具备“教科书级质量”的合成数据集上进行了训练,旨在提升常识推理能力。其架构包含 24 层和 32 个注意力头,并采用了旋转嵌入技术。


其他 Phi-1.5 模型
  • 没有相关模型
Phi-1.5:规格和 GPU 显存要求