ApX 标志ApX 标志

趋近智

Phi-3-small

参数

7B

上下文长度

8.192K

模态

Text

架构

Dense

许可证

MIT License

发布日期

22 Apr 2024

训练数据截止日期

Oct 2023

技术规格

注意力结构

Grouped-Query Attention

隐藏维度大小

4096

层数

32

注意力头

32

键值头

8

激活函数

-

归一化

-

位置嵌入

ROPE

Phi-3-small

微软的 Phi-3-small 是 Phi 系列小语言模型(SLM)的一员,旨在通过紧凑的计算占用提供高性能。该模型变体拥有 70 亿(7B)参数,定位于对资源效率和响应速度有严苛要求的广泛商业及研究应用。它针对需要强大语言理解、逻辑推理以及在受限硬件环境(包括设备端部署)中进行高效处理的场景进行了优化。

Phi-3-small 的底层架构为稠密型、仅解码器(decoder-only)的 Transformer 架构。它结合了多项旨在优化性能和内存效率的设计选择,特别是采用了分组查询注意力(GQA)机制,其中四个查询头共享一个键值(KV)头,从而减少了 KV 缓存的占用。此外,该模型利用了稠密注意力层与块稀疏(blocksparse)注意力层的交替设计,在保持长上下文检索能力的同时进一步提升了内存管理效率。其训练方法包括精细的有监督微调(SFT)和直接偏好优化(DPO),确保模型符合人类偏好和安全准则。

Phi-3-small 的默认上下文长度设计为 8,192 个标记(8K),通过应用 LongRope 技术,其扩展版本可支持高达 128,000 个标记。该模型的训练方案涉及一个包含 4.8 万亿标记的海量数据集,这些数据源自经过严格筛选的公共文档、高质量教育内容和合成数据,强调数据质量和推理密度。这使得该模型在复杂语言理解、数学问题求解和代码生成等任务中表现卓越,适用于从云端推理到边缘设备及移动平台等各种硬件平台的部署。

关于 Phi-3

微软的 Phi-3 模型是专为在资源受限设备上高效运行而设计的小型语言模型。该系列模型采用 Transformer 解码器架构,并在经过严格过滤的高质量数据(包括合成素材)上进行训练。这种方法打造出了一个尺寸精简但功能强大的模型家族。


其他 Phi-3 模型

评估基准

排名

#119

基准分数排名

Web 开发

WebDev Arena

1171

77

排名

排名

#119

编程排名

#94

模型透明度

总分

B

66 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU

Phi-3-small:规格和 GPU 显存要求