趋近智
注意力结构
Grouped-Query Attention
隐藏维度大小
5120
层数
40
注意力头
40
键值头
10
激活函数
-
归一化
RMS Normalization
位置嵌入
ROPE
Phi-3-medium 是由微软开发的一款紧凑型、高性能大语言模型,属于 Phi-3 系列模型。该模型拥有 140 亿个参数,旨在用于广泛的商业和研究应用,特别是在内存或计算资源受限的环境以及对延迟敏感的场景中。该模型旨在提供强大的推理能力,特别是在数学、逻辑和代码生成方面,将其定位为开发生成式人工智能功能的基础组件。
Phi-3-medium 的训练方法采用了高质量、推理密集型的数据集,该数据集是其前代模型 Phi-2 所用数据的精炼和扩展版本。该数据集结合了经过严格筛选的公开网页内容和合成生成的数据,确保了模型的鲁棒性及其对指令的遵循能力。训练过程包括有监督微调 (SFT) 和直接偏好优化 (DPO),以增强其精确遵循指令的能力并强化安全措施。
该模型采用仅解码器(decoder-only)的稠密 Transformer 架构,这是自回归语言建模任务中一种通用且有效的结构。其内部机制包括用于高效内存利用和处理的分组查询注意力 (GQA)、用于稳定训练的均方根 (RMS) 归一化,以及用于处理序列位置信息的旋转位置嵌入 (RoPE)。RoPE 的一种名为 LongRope 的特定变体,使模型能够处理长达 128,000 个 token 的超长上下文。Phi-3-medium 针对多种硬件(包括 GPU、CPU 和移动设备)的部署进行了优化,通常利用 ONNX Runtime 和 DirectML 等技术来实现跨平台兼容性和高效推理。
微软的 Phi-3 模型是专为在资源受限设备上高效运行而设计的小型语言模型。该系列模型采用 Transformer 解码器架构,并在经过严格过滤的高质量数据(包括合成素材)上进行训练。这种方法打造出了一个尺寸精简但功能强大的模型家族。
排名
#129
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1198 | 76 |