趋近智
参数
7B
上下文长度
8.192K
模态
Text
架构
Dense
许可证
MIT License
发布日期
22 Apr 2024
训练数据截止日期
Oct 2023
注意力结构
Grouped-Query Attention
隐藏维度大小
4096
层数
32
注意力头
32
键值头
8
激活函数
-
归一化
-
位置嵌入
ROPE
微软的 Phi-3-small 是 Phi 系列小语言模型(SLM)的一员,旨在通过紧凑的计算占用提供高性能。该模型变体拥有 70 亿(7B)参数,定位于对资源效率和响应速度有严苛要求的广泛商业及研究应用。它针对需要强大语言理解、逻辑推理以及在受限硬件环境(包括设备端部署)中进行高效处理的场景进行了优化。
Phi-3-small 的底层架构为稠密型、仅解码器(decoder-only)的 Transformer 架构。它结合了多项旨在优化性能和内存效率的设计选择,特别是采用了分组查询注意力(GQA)机制,其中四个查询头共享一个键值(KV)头,从而减少了 KV 缓存的占用。此外,该模型利用了稠密注意力层与块稀疏(blocksparse)注意力层的交替设计,在保持长上下文检索能力的同时进一步提升了内存管理效率。其训练方法包括精细的有监督微调(SFT)和直接偏好优化(DPO),确保模型符合人类偏好和安全准则。
Phi-3-small 的默认上下文长度设计为 8,192 个标记(8K),通过应用 LongRope 技术,其扩展版本可支持高达 128,000 个标记。该模型的训练方案涉及一个包含 4.8 万亿标记的海量数据集,这些数据源自经过严格筛选的公共文档、高质量教育内容和合成数据,强调数据质量和推理密度。这使得该模型在复杂语言理解、数学问题求解和代码生成等任务中表现卓越,适用于从云端推理到边缘设备及移动平台等各种硬件平台的部署。
微软的 Phi-3 模型是专为在资源受限设备上高效运行而设计的小型语言模型。该系列模型采用 Transformer 解码器架构,并在经过严格过滤的高质量数据(包括合成素材)上进行训练。这种方法打造出了一个尺寸精简但功能强大的模型家族。
排名
#119
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1171 | 77 |