ApX 标志ApX 标志

趋近智

Phi-3-medium

参数

14B

上下文长度

128K

模态

Text

架构

Dense

许可证

MIT

发布日期

22 Apr 2024

训练数据截止日期

Oct 2023

技术规格

注意力结构

Grouped-Query Attention

隐藏维度大小

5120

层数

40

注意力头

40

键值头

10

激活函数

-

归一化

RMS Normalization

位置嵌入

ROPE

Phi-3-medium

Phi-3-medium 是由微软开发的一款紧凑型、高性能大语言模型,属于 Phi-3 系列模型。该模型拥有 140 亿个参数,旨在用于广泛的商业和研究应用,特别是在内存或计算资源受限的环境以及对延迟敏感的场景中。该模型旨在提供强大的推理能力,特别是在数学、逻辑和代码生成方面,将其定位为开发生成式人工智能功能的基础组件。

Phi-3-medium 的训练方法采用了高质量、推理密集型的数据集,该数据集是其前代模型 Phi-2 所用数据的精炼和扩展版本。该数据集结合了经过严格筛选的公开网页内容和合成生成的数据,确保了模型的鲁棒性及其对指令的遵循能力。训练过程包括有监督微调 (SFT) 和直接偏好优化 (DPO),以增强其精确遵循指令的能力并强化安全措施。

该模型采用仅解码器(decoder-only)的稠密 Transformer 架构,这是自回归语言建模任务中一种通用且有效的结构。其内部机制包括用于高效内存利用和处理的分组查询注意力 (GQA)、用于稳定训练的均方根 (RMS) 归一化,以及用于处理序列位置信息的旋转位置嵌入 (RoPE)。RoPE 的一种名为 LongRope 的特定变体,使模型能够处理长达 128,000 个 token 的超长上下文。Phi-3-medium 针对多种硬件(包括 GPU、CPU 和移动设备)的部署进行了优化,通常利用 ONNX Runtime 和 DirectML 等技术来实现跨平台兼容性和高效推理。

关于 Phi-3

微软的 Phi-3 模型是专为在资源受限设备上高效运行而设计的小型语言模型。该系列模型采用 Transformer 解码器架构,并在经过严格过滤的高质量数据(包括合成素材)上进行训练。这种方法打造出了一个尺寸精简但功能强大的模型家族。


其他 Phi-3 模型

评估基准

排名

#129

基准分数排名

Web 开发

WebDev Arena

1198

76

排名

排名

#129

编程排名

#98

模型透明度

总分

B+

71 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU

Phi-3-medium:规格和 GPU 显存要求