趋近智
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
1x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
2048 个令牌
消费级
1x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
没有可用的 Phi-1.5 评估基准。
排名
-
编程排名
-
微软的 Phi-1.5 是一款基于 Transformer 架构的语言模型,包含 13 亿个参数。该模型的开发旨在继续探索小型语言模型的能力,特别关注自然语言语境下的常识推理和通用知识。模型的设计目标是为研究社区提供一个无限制且易于访问的模型,以探索与大语言模型相关的挑战,例如降低毒性和增强可控性。
Phi-1.5 的架构与其前代产品 Phi-1 保持一致,采用了仅解码器(decoder-only)的 Transformer 配置。该架构包含 24 层,拥有 32 个注意力头,每个头的维度为 64。模型集成了旋转位置嵌入(RoPE)进行位置编码,使用的旋转维度为 32,并利用 Flash Attention 来提高训练速度和内存效率。Phi-1.5 开发过程中的一项关键创新在于其训练方法,主要使用高质量、合成的“教科书式”数据集。该数据集总计 300 亿个 token,其中包括来自 Phi-1 训练数据的 70 亿个 token,以及约 200 亿个新生成的合成 token,主要用于传授常识推理和广泛的知识。
Phi-1.5 在各种自然语言处理任务中展现出了出色的能力,包括文本生成、问答和 Python 代码生成。尽管它是一个基础模型,未经过针对指令遵循的特定微调,也没有通过人类反馈强化学习(RLHF)进行优化,但它能够以问答和聊天等格式生成相关的响应。其紧凑的模型规模和专门的训练方案使其能够执行复杂的推理任务,使其成为研究上下文学习(in-context learning)和解决模型局限性等领域的有力工具。
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
32
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
GELU
维度
隐藏维度大小
2,048
层数
24
FFN 中间层大小(稠密层)
8,192
多 Token 预测头数
-
分词器
词汇量大小
51,200
微软的 Phi-1.5 是一个拥有 13 亿参数的 Transformer 模型,是 Phi-1 的后续版本。该模型在经过筛选的、具备“教科书级质量”的合成数据集上进行了训练,旨在提升常识推理能力。其架构包含 24 层和 32 个注意力头,并采用了旋转嵌入技术。
APX AI
在线